gatk

从零开始完整学习全基因组测序数据分析:第3节 数据质控

南笙酒味 提交于 2021-02-13 12:06:45
从这一节开始详细讲述正式流程的搭建,我将结合具体的例子努力争取将这个系列写成比GATK最佳实践更加具体、更具有实践价值的入门指南。整个完整的流程分为以下6部分: 原始测序数据的质控 read比对,排序和去除重复序列 Indel区域重(“重新”的“重”)比对 碱基质量值重校正 变异检测 变异结果质控和过滤 在这个图中,我把WGS数据分析流程的各个步骤和关系都画下来了。这个流程虽然只针对于人,但对于其它二倍体生物来说,同样具有借鉴价值。这6个步骤,接下来我也会进行详细介绍,在本篇文章中我们首先介绍原始测序数据的质控。 认识测序数据——数据质控的意义 在 第1节 测序技术 中,我们已经知道现在的NGS测序,以illumina为首基本都是运用 边合成边测序 的技术。碱基的合成依靠的是化学反应,这使得碱基链可以不断地从5'端一直往3'端合成并延伸下去。 但在这个合成的过程中随着合成链的增长,DNA聚合酶的效率会不断下降,特异性也开始变差,这就会带来一个问题——越到后面碱基合成的错误率就会越高【注】 ,这也是为何当前NGS测序读长普遍偏短的一个原因。 【注】:有时候测序仪在刚开始进行合成反应的时候也会由于反应还不够稳定,同样会带来质量值的波动,不过这个波动一般都在高质量值区域(如下图)。 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此

下载GATK中存储的snp vcf文件

折月煮酒 提交于 2020-08-15 21:30:39
下载GATK中存储的snp vcf文件 写这篇文章的目的是为了以后不迷路,哈哈。我可是花了很长时间二次查找。 GATK是我们在找somatic snp时经常会用到的工具,它可以对可能存在小插入或者缺失的位点进行重新排列和校准! GATK里存储了很多版本的vcf文件 以下载hg38版本为例 网址为ftp://ftp.broadinstitute.org/bundle/hg38/ 我们可以在服务器上直接下载 wget -b -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confidence.hg38.vcf.gz wget -b -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_138.hg38.vcf.gz wget -b -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz wget -b -c表示后台断点式下载,这样就不用担心网断的问题了。 tail -f wget-log 可以查看下载进度 来源

python通用读取vcf文件的类(可以直接复制粘贴使用)

旧城冷巷雨未停 提交于 2020-02-29 12:24:58
前言   处理vcf文件的时候,需要多种切割,正则匹配,如果要自己写其实会比较麻烦,并且每次还得根据vcf文件格式或者需要读取的值不同要修改相应的代码。因此很多人会选择一些python的vcf的库,但是首先你得安装这个库, 并且有一些库它固定了能够读的内容,如果你的vcf的信息不在它固定的里面,就读不出来。比如最近我想读一个样本的AF,但是它放在最后样本的GT那列,不在INFO那一列,有一些库竟然无能为力。   因此我写了这个通用的读vcf的类,直接复制粘贴这部分代码就可以方便的用这个类进行vcf文件的读取,过滤,写出等操作。 使用说明 首先复制类的代码,后面就可以直接用了 import sys import os import subprocess class Record(object): ''' One line information in vcf file ''' def __init__(self, line): info = line.split("\t") self.line = line self.CHROM = info[0] self.POS = info[1] self.ID = info[2] self.REF = info[3] self.ALT = info[4] self.QUAL = info[5] self.FILTER = info[6]

2015 年,我和华大基因立下一个小目标……

半世苍凉 提交于 2020-02-26 07:17:20
导读 :2015 年,阿里云和华大基因立下一个目标:到 2020 年,要在 24 小时完成个人全基因组测序。这在当时是一个几乎被认为不可能的挑战。 而在 2020 年刚开始的第 17 天,我们就实现了这个目标!并且把个人全基因组测序分析做到只需要 15 分钟,不到一顿饭的功夫。 云端实现大规模弹性调度计算 图 1 - WGS 分析过程示意图 基因计算所面临的挑战不同于常规计算,大数据生信分析平台需要具备 PB 级的数据处理能力:存储与压缩、清理及管理、低成本保存的能力;快速、安全的云端分发共享;基因数据的安全隐私保护、大规模数据挖掘;按需调度和弹性扩容等。 此次方案由华大 DNBSEQ 自主测序仪、BGI Online 混合云架构、阿里云容器服务 ACK/AGS 基因服务以及赛乐基因 GPU 加速算法的深度融合而成。其中,华大基因联合阿里云的整体技术架构为云原生容器混合云,实现云上云下资源一体,跨地域集群统一管理。凭借云端的自动伸缩特性,实现大规模弹性调度计算。 在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据 (FASTQ文件) 上传至 OSS,以及授权 Bucket 给 AGS 服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。 这套端到端解决方案,无缝衔接测序平台和基因云平台,全面支持包括

基因组变异汇总

帅比萌擦擦* 提交于 2019-12-30 15:26:28
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 人类基因组上的结构性变异研究对于基因组进化,群体多态性分析以及疾病易感性等方面的研究有着重要的意义。第二代短reads高通量测序技术的发展在带来了测序成本降低的同时,这种短读长的测序方式也给人类的变异检测带来了很大的挑战。这里我主要对当前常用的变异检测方法、软件以及他们各自的有确定做一个简要的小结。 人类基因组上的变异主要分为三大类:1. 单核苷酸变异,(通常称为单核苷酸多态性,通俗的说法就是单个DNA 碱基 的不同,简称SNP);2. 小的Indel(Insertion 和 Deletion的简),指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在50bp以下(这个长度范围的变异可以利用Smith-Waterman 的比对算法来获得1,2);3. 大的结构性变异,这种类型比较多,包括长度在50bp以上的长片段序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异,以及一些形式更为复杂的变异。为了和SNP变异作区分,第2和第3类变异通常也被称为基因组结构性变异(Structural variation,简称SV)。这里值得一提的是,研究人员对基因组的结构性变异发生兴趣,主要是由于这几年的研究发现:(1)虽然还未被广泛公认

计科菜鸟玩生信(一)——Windows10下用docker安装GATK

爷,独闯天下 提交于 2019-12-06 17:29:25
   1.官网下载GATK。   (学校网速实在是太慢了,下载几个小时到自闭)    下载地址:https://software.broadinstitute.org/gatk/download/    下载完成后文件夹中有如下内容。          2.docker的下载。   因为我的电脑配置的Windows10,而GATK仅支持Linux和MacOSX(这个时候要注意一定要多查看documentation),询问老师后决定使用虚拟机。在GATK的入门指南上有明确建议使用docker,但是我从来没有接触过这一方面(卑微),所以下面主要针对docker的使用了。   (下面摘抄截取入门指南部分内容,在此感谢Google浏览器强大的翻译功能~)         docker在官网下载即可,因为实在是不熟悉,我直接下载了docker desktop,本来以为大功告成结果在安装的时候报错了。   在此之前我从来没有感受过家庭个人版和专业版有什么不同,只是想下载GATK这么难吗...(怀疑电脑.jpg),然后查阅了docs,幸好docker还有旧版工具箱,个人家庭版可以使用docker toolbox,但是还要使用VirtualBox(再次强调查阅官方文档的重要性!)   使用Windows10Pro的小伙伴可直接查看GATK的文档—> https://gatkforums

基于基因组测序数据鉴定单碱基变异的方法总结

丶灬走出姿态 提交于 2019-11-30 05:24:36
单核苷酸多态性,英文single nucleotide polymorphism,缩写为SNP,读音为Snip。SNP主要是指在基因组水平上引起的单个碱基的变异,其在群体中的发生频率不小于1%,包括单碱基的转换、颠换以及单碱基的插入和缺失等。 多态性示意图(图片来源:genome news network) 突变(mutation)和多态性(polymorphism)的主要区别在于 : 1) 突变在群体中的发生频率小于1%,而多态性的发生频率在大于1%; 2) 突变通常对生生物体是有害的,而多态性通常都是无害的。 多态性和突变的区别(图片来源:genome news network) 那么基于基因组测序数据,包括全基因组测(WGS)、全外显子测序(WES)或靶向测序(targeted sequencing),鉴定基因组变异的标准流程是什么样的呢?(更多精彩请关注微信公众号:AIPuFuBio) 具体如下图所示: 基因组变异鉴定标准流程(DePristo et al. Nature Genetics, 2011) 所以基于测序数据进行基因组变异检测的第一步就是数据匹配,即把测序数据匹配到参考基因组上。匹配测序数据的软件非常多,下图列举了一些典型的匹配软件。具体如下所示: 常用的测序数据匹配软件比较(Li et al. Cancer Informatics, 2015) 由上表可知