人类基因组概况--整理
人类基因组概况: 人类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。 一个基因组的dna大约3ug。 snp: 平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。 人类基因组的突变频率10的-6次方。即:每10的6次方个碱基,就会发生一个突变。 基因组长度: 人类基因组有30亿个碱基(3*10的10次方)。人类基因组的exon的长度大约1*10的7次方,占基因组的2%~3%。 假如平均一个protein的长度为500个amino acid(氨基酸),那么编码一个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次方)≈10的4次方,即1个protein占exon碱基数的万分之一。 基因类型: Ensemble数据库中有5万多个基因。其中,2万多个蛋白编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf文件中,有一列是genetype,它分的类型是:protein coding、LincRNA、假基因。 即:基因可分为两大类编码蛋白的基因(包括:protein coding gene、pseudogene、LincRNA