基因型

VCF文件格式详解

梦想与她 提交于 2019-12-11 11:45:03
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> VCF文件全称为Variant Call Format,表示基因组的变异信息,通常为GATK和Samtools软件处理所得到。 VCF文件大致可以分为两个部分: 1、以##开头的头文件信息 ##fileformat=VCFv4.2 ##FILTER=<ID=LowQual,Description="Low quality"> ##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=PL,Number=G

对性染色体进行关联分析

强颜欢笑 提交于 2019-12-04 21:27:32
欢迎来到"bio生物信息"的世界 1 前言 早期的研究普遍只做常染色体的全基因组关联分析,很少做性染色体的。 主要原因是性染色体的遗传模式比较复杂,存在X染色体失活,而且男女效应值不大一样。 其次,也不是所有的表型都是男女有差异的。 再然后,也没有很好的工具计算性染色体的关联分析。 随着遗传学的研究发展,现在有很多工具是允许计算性染色体的关联分析。 下面简单介绍一个常见的工具 SNPTEST 网址: https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html 2 SNPTEST支持什么分析 SNPTEST支持很多分析 比如, 二分类、单个或者多个连续型表型的关联分析 贝叶斯、加性模型、显性模型、隐性模型、常规模型、杂合子模型 对一个或多个协变量、SNP位点进行条件分析 变量间的交互作用分析 性染色体关联分析 3 如何使用SNPTEST对性染色体进行关联分析 3.1 下载、安装(以CentOS6.6为例) 对于linux系统而言,建议选择动态链接版本(文件写着dynamic) wget http://www.well.ox.ac.uk/~gav/resources/snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz tar zxvf snptest_v2.5

哈迪温伯格平衡 & 检验

寵の児 提交于 2019-12-03 07:24:21
/*--> */ /*--> */ 哈斯温伯格定律 Hardy–Weinberg equilibrium ( Hardy–Weinberg principle , HWP ) 及检验 群体中代与代之间 等位基因频率(allele frequency)基因型频率(genotype freqency)恒定 f (AA) = p 2 f (aa) = q 2 f (Aa) = 2 pq 。对应等位基因频率(allele freqency)的计算 偏离哈迪温伯格平衡 ( 受到选择的标志) Deviations from Hardy–Weinberg equilibrium Significance tests for deviation 偏离显著性检验。通常用Pearson’s chi-squared test . 使用观察到数据的基因型频率以及通过 HWP 得到的预期基因型频率。 Pearson 卡方 检验,使用从数据获得的观测基因型频率和使用HWP获得的预期基因型频率。 注:对于存在大量等位基因的系统,这可能会导致数据具有许多可能的空基因型和低基因型计数,因为样本中通常没有足够的个体来充分代表所有基因型类别。如果是这种情况,则卡方分布的渐近假设将不再成立,可能有必要使用某种形式的Fisher精确检验, 零假设是符合HWP,备择假设是不符合 。例子见 https://en

SNPs & MAF

匆匆过客 提交于 2019-12-03 07:19:13
SNPs,全称是single nucleotide polymorphisms,SNPs等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。 SNPs概念   在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性 。即:在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象。   只涉及到单个核苷酸碱基的变化,包括碱基的置换或颠换,插入和缺失等,但后两种少见。   从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个 。   因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。   现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现