等位基因

哈迪温伯格平衡 & 检验

寵の児 提交于 2019-12-03 07:24:21
/*--> */ /*--> */ 哈斯温伯格定律 Hardy–Weinberg equilibrium ( Hardy–Weinberg principle , HWP ) 及检验 群体中代与代之间 等位基因频率(allele frequency)基因型频率(genotype freqency)恒定 f (AA) = p 2 f (aa) = q 2 f (Aa) = 2 pq 。对应等位基因频率(allele freqency)的计算 偏离哈迪温伯格平衡 ( 受到选择的标志) Deviations from Hardy–Weinberg equilibrium Significance tests for deviation 偏离显著性检验。通常用Pearson’s chi-squared test . 使用观察到数据的基因型频率以及通过 HWP 得到的预期基因型频率。 Pearson 卡方 检验,使用从数据获得的观测基因型频率和使用HWP获得的预期基因型频率。 注:对于存在大量等位基因的系统,这可能会导致数据具有许多可能的空基因型和低基因型计数,因为样本中通常没有足够的个体来充分代表所有基因型类别。如果是这种情况,则卡方分布的渐近假设将不再成立,可能有必要使用某种形式的Fisher精确检验, 零假设是符合HWP,备择假设是不符合 。例子见 https://en

SNPs & MAF

匆匆过客 提交于 2019-12-03 07:19:13
SNPs,全称是single nucleotide polymorphisms,SNPs等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。 SNPs概念   在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性 。即:在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象。   只涉及到单个核苷酸碱基的变化,包括碱基的置换或颠换,插入和缺失等,但后两种少见。   从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个 。   因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。   现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现

PRS多基因风险评分的几个算法

纵饮孤独 提交于 2019-12-02 14:35:05
之前体验了一下 impute.me 的基因检测分析服务,其内容之丰富和详尽让我感到吃惊。基本上涵盖了几乎所有有影响的GWAS研究结果(GWAS-Catalog等来源),于是我感到很好奇,他的评估计算方法,于是再次打开其开源的github地址,找到了一些内容,学习一下。再次为这个项目点赞! 三种多基因风险评分方法 1.Basic count score 基本计数分数 基本上只是计算影响等位基因。这是多基因风险评分最简单的设置。直观理解-等位基因风险越高,得分越高。主要缺点是,它不能区分影响大小不同的SNP。 得分=Σ等位基因计数snp(I) Weighted-score 加权分数 由每个SNP的效应大小加权的得分。与具有较小效果大小的SNP相比,这具有对具有较大效果大小的SNP加权的额外好处。请注意,适用于二元特征的log(OR)的beta已更改。这种得分类型的唯一缺点是,它的规模是任意的,与其他人群相比,它几乎没有提供有关风险的信息。 加权分数= ΣBeta snp *效应等位基因计数snp(II) Z得分 以 标准偏差 给出的高于或低于该人群平均风险得分的得分。Z分数的此特定实现可在此处找到。的频率SNP是从1000个基因组数据的相关超群体获得。效果等位基因计数和Beta与以前的评分相同。该标准偏差的人口是根据计算出这个代码。在许多模块中,增加了一个额外的步骤