人类基因组

人类基因组概况--整理

北城余情 提交于 2020-03-26 08:25:55
人类基因组概况:             人类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。         一个基因组的dna大约3ug。   snp:     平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。     人类基因组的突变频率10的-6次方。即:每10的6次方个碱基,就会发生一个突变。    基因组长度:     人类基因组有30亿个碱基(3*10的10次方)。人类基因组的exon的长度大约1*10的7次方,占基因组的2%~3%。     假如平均一个protein的长度为500个amino acid(氨基酸),那么编码一个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次方)≈10的4次方,即1个protein占exon碱基数的万分之一。   基因类型:     Ensemble数据库中有5万多个基因。其中,2万多个蛋白编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf文件中,有一列是genetype,它分的类型是:protein coding、LincRNA、假基因。     即:基因可分为两大类编码蛋白的基因(包括:protein coding gene、pseudogene、LincRNA

SNPs & MAF

匆匆过客 提交于 2019-12-03 07:19:13
SNPs,全称是single nucleotide polymorphisms,SNPs等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。 SNPs概念   在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性 。即:在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象。   只涉及到单个核苷酸碱基的变化,包括碱基的置换或颠换,插入和缺失等,但后两种少见。   从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个 。   因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。   现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现