1.下载参考基因组的三大网站:
NCBI (https://www.ncbi.nlm.nih.gov/grc)
UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)
Ensemble (http://asia.ensembl.org/index.html?redirect=no)
注意:Jimmy在《不可不知的基因组版本对应信息》中特别提示:hg19基因组大小是3G,压缩后八九百兆!
2.下载基因注释文件的网站:
简单来讲注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,
外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble
目前最权威的人类和小鼠基因组的注释还是Genecode数据库。
网站:http://www.gencodegenes.org
注意注释文件的格式一般是gtf或者gff3格式的,具体差异自行百度。
来源:https://www.cnblogs.com/lmt921108/p/7446535.html