组装好基因组后之预测基因

匿名 (未验证) 提交于 2019-12-03 00:10:02

预测基因
给定一段fasta格式序列,如何预测其中的基因呢?首先需要判断该片段来自原核生物,真核生物还是病毒序列。如果是原核生物,基因结构比较简单,可以直接使用prodigal或者glimmer3工具进行预测。直接将fasta格式序列输入给软件即可。

prodigal -a ref.pep -d ref.cds -f gff -g 11 -o ref.gff -s ref.stat -i ref.fna >prodigal.log
-i:输入文件,fasta格式
-o:输出结果文件,有多种格式可选
-f:输出文件类型gbk, gff, or sco
-d:基因的核酸序列
-a:基因的氨基酸序列
-g:密码子表,细菌为第11
-p:模式,单菌还是宏基因组
-s:统计信息
如果是真核生物,可以使用augustus或者snap工具进行预测。

#真核生物基因预测
augustus --strand=both --genemodel=partial --singlestrand=false --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff --species=human HS04636.fa
14 基因功能注释
给定一个基因序列,fasta格式的氨基酸序列,如何得到基因的功能信息?可以使用eggnog-mapper进行分析。

emapper.py -i gene.fasta --output polb_bact -d bact --data_dir eggnog-mapper-1.0.3/data/
-i:输入文件,基因的氨基酸序列
-m:选择运行模式hmmer或者diamond
-h:输出帮助文档




15 预测rRNA
给定一段序列,如何找到其中的核糖体RNA,也就是rRNA,包括原核生物的5S,16S,23S,真核生物的5.8S,18S,28SRNA等,由于核糖体RNA具有很高的保守性,因此,预测准确性较高。使用rnammer软件,直接输入fasta序列即可。

rnammer -S bac -m tsu,lsu,ssu -gff ref.gff -f ref.frn ref.fna
-S:物种类型,古细菌,细菌或者真菌
-m:需要rRNA类型,如果真要16S,则单独选择lsu
-gff:输出gff格式结果
-f:输出fasta格式序列

16 预测tRNA
给定一段序列,如何找到其中的转运RNA,也就是tRNA,可以使用tRNAscan工具,直接输入序列即可。

tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure -m stat.list ref.fna
-B :物种为细菌
-A :物种为古细菌
-O :输入序列为细胞器
-G :包括全部类型
-o:输出结果
-f:tRNA二级结构
-m:统计结果

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!