预测基因
给定一段fasta格式序列,如何预测其中的基因呢?首先需要判断该片段来自原核生物,真核生物还是病毒序列。如果是原核生物,基因结构比较简单,可以直接使用prodigal或者glimmer3工具进行预测。直接将fasta格式序列输入给软件即可。
prodigal -a ref.pep -d ref.cds -f gff -g 11 -o ref.gff -s ref.stat -i ref.fna >prodigal.log
-i:输入文件,fasta格式
-o:输出结果文件,有多种格式可选
-f:输出文件类型gbk, gff, or sco
-d:基因的核酸序列
-a:基因的氨基酸序列
-g:密码子表,细菌为第11
-p:模式,单菌还是宏基因组
-s:统计信息
如果是真核生物,可以使用augustus或者snap工具进行预测。
#真核生物基因预测
augustus --strand=both --genemodel=partial --singlestrand=false --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff --species=human HS04636.fa
14 基因功能注释
给定一个基因序列,fasta格式的氨基酸序列,如何得到基因的功能信息?可以使用eggnog-mapper进行分析。
emapper.py -i gene.fasta --output polb_bact -d bact --data_dir eggnog-mapper-1.0.3/data/
-i:输入文件,基因的氨基酸序列
-m:选择运行模式hmmer或者diamond
-h:输出帮助文档
15 预测rRNA
给定一段序列,如何找到其中的核糖体RNA,也就是rRNA,包括原核生物的5S,16S,23S,真核生物的5.8S,18S,28SRNA等,由于核糖体RNA具有很高的保守性,因此,预测准确性较高。使用rnammer软件,直接输入fasta序列即可。
rnammer -S bac -m tsu,lsu,ssu -gff ref.gff -f ref.frn ref.fna
-S:物种类型,古细菌,细菌或者真菌
-m:需要rRNA类型,如果真要16S,则单独选择lsu
-gff:输出gff格式结果
-f:输出fasta格式序列
16 预测tRNA
给定一段序列,如何找到其中的转运RNA,也就是tRNA,可以使用tRNAscan工具,直接输入序列即可。
tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure -m stat.list ref.fna
-B :物种为细菌
-A :物种为古细菌
-O :输入序列为细胞器
-G :包括全部类型
-o:输出结果
-f:tRNA二级结构
-m:统计结果
来源:51CTO
作者:awk_bioinfo
链接:https://blog.csdn.net/qq_36608036/article/details/101105768