基因注释
注释过程:这一步一般都需要手动去鉴定和校正,当然也可以利用一些软件来校正,运用这类过程的 软件 JIGSAW、 EVidenceModeler (EVM)和 GLEAN (以及后续软件 Evigan) 。 通过估计每一个来源的基因证据误差的类型和频率, 进而选择误差最小的结果 maker 在基因组注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续用作输入训练基因预测的算法,从而获取更高质量的基因模型。 需要的数据包括dpp开头(这里dpp是这个例子中注释对象的简称)的以下文件 protein表示是同源物种的蛋白序列,est是表达序列标签,存放的是片段化的cDNA序列,而contig则是需要被预测的基因组序列。 由于基因组注释设计到多个程序,多个步骤,每个步骤可能都有很多参数需要调整,因此就需要建立专门的配置文件用来告诉maker应该如何控制流程的运行。 如下步骤创建三个以ctl结尾的配置文件 maker_exe.ctl: 执行程序的路径 maker_bopt.ctl: BLAST和Exonerate的过滤参数 maker_opt.ctl: 其他信息,例如输入基因组文件 maker_exe.ctl和maker_bopt