注释过程:这一步一般都需要手动去鉴定和校正,当然也可以利用一些软件来校正,运用这类过程的 软件 JIGSAW、 EVidenceModeler (EVM)和 GLEAN (以及后续软件 Evigan) 。 通过估计每一个来源的基因证据误差的类型和频率, 进而选择误差最小的结果
maker
需要的数据包括dpp开头(这里dpp是这个例子中注释对象的简称)的以下文件
protein表示是同源物种的蛋白序列,est是表达序列标签,存放的是片段化的cDNA序列,而contig则是需要被预测的基因组序列。
由于基因组注释设计到多个程序,多个步骤,每个步骤可能都有很多参数需要调整,因此就需要建立专门的配置文件用来告诉maker应该如何控制流程的运行。
如下步骤创建三个以ctl结尾的配置文件
- maker_exe.ctl: 执行程序的路径
- maker_bopt.ctl: BLAST和Exonerate的过滤参数
- maker_opt.ctl: 其他信息,例如输入基因组文件
maker_exe.ctl和maker_bopt.ctl可以简单用less查看,可不做修改,maker_opt.ctl是主要调整的对象。 使用vim maker_opt.ctl
修改如下内容
genome=dpp_contig.fasta est=dpp_est.fasta protein=dpp_protein.fasta est2genome=1
修改完之后多花几分钟看看每个参数的设置,尽管很枯燥,但是考虑这个工具你可能会反复多次使用,所以这点时间是一定要花的。
随后就可以在当前路径运行程序
~/opt/biosoft/maker/bin/maker &> maker.log &
输出结果见"dpp_contig.maker.output", 重点是"dpp_contig_master_datastore_index.log"文件,由于maker会拆分数据集并行计算,因此该文件记录总体的运行情况,需要关注其中是否有"FAILED","RETRY","SKIPPED_SAMLL","DIED_SIPPED_PERMANET",因为这意味着有些数据出于某些原因没有运算。
最后,我们需要将并行运算的结果进行整合,导出GFF文件, 转录本序列和蛋白序列
~/opt/biosoft/maker/bin/fasta_merge -d dpp_contig_master_datastore_index.log ~/opt/biosoft/maker/bin/gff3_merge -d dpp_contig_master_datastore_index.log
在该目录下就会出现, "dpp_contig.all.gff", "dpp_contig.all.maker.proteins.fasta","dpp_contig.all.maker.transcripts.fasta"
其中GFF文件就需要用IGV,JBrowse, Apollo下展示来检查下注释是否正确。
GLEAN 及后续软件 Evigan
Glean之前的总结:https://www.cnblogs.com/bio-mary/p/12257159.html
Evigan:整合基因证据用于真核基因预测的隐藏变量模型。Evigan是用于真核基因组的自动化基因注释程序,它利用概率推理来整合多种基因证据来源。概率模型是动态贝叶斯网络,其参数经过调整以最大化观察到的证据的概率。然后通过最大似然解码得出共识基因预测,得出n-最佳模型(每个模型都有概率)。Evigan能够适应多种证据类型,包括(但不限于)由各种基因发现者计算的基因模型,BLAST命中,EST匹配和剪接位点预测;学习的参数编码证据来源的相对质量。由于不需要单独的训练数据(除了各个基因发现者使用的训练集),Evigan对于新序列化的基因组特别有吸引力,在新测序的基因组中,几乎没有可靠的手动管理注释可用。产生替代基因模型的排序列表的能力可以促进鉴定选择性剪接的转录本。在人类基因组,间日疟原虫和拟南芥基因组的ENCODE区的实验应用 表明Evigan的性能要优于用作证据的任何单个数据源。
Evigan是一种真核基因预测因子,通过整合多种证据来源产生共识基因模型。Evigan可以纳入各种类型的证据,例如由基因发现者预测的基因模型,EST匹配,蛋白质与基因组比对等。利用动态贝叶斯网络(DBN),Evigan可以通过推断观察到的最可能的共有基因模型来进行预测。来源证据。它的模型参数是通过Expectation-Maximization(EM)算法估算的,从而不需要经过整理的训练数据。
EVM
使用 EvidenceModeler(EVM) 将同源,denovo和转录组的结果组装成非冗余的基因结构。进一步根据Cscore > 0.5,peptide coverage > 0.5 和CDS overlaping with TE进行筛选。还有过滤掉超过30%编码区被Pfam或Interprot TE domain的注释的基因模型。
来源:
https://blog.csdn.net/msw521sg/article/details/52350347对https://www.nature.com/articles/nrg3174
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4286374/
A beginner's guide to eukaryotic genome annotation的中文翻译版
http://www.doc88.com/p-7304335383757.html
https://www.jianshu.com/p/f6c3718bda62
https://yq.aliyun.com/articles/650492
https://academic.oup.com/bioinformatics/article/24/5/597/202036
https://www.seas.upenn.edu/~strctlrn/evigan/evigan.html
来源:https://www.cnblogs.com/bio-mary/p/12612850.html