从零开始完整学习全基因组测序数据分析:第3节 数据质控
从这一节开始详细讲述正式流程的搭建,我将结合具体的例子努力争取将这个系列写成比GATK最佳实践更加具体、更具有实践价值的入门指南。整个完整的流程分为以下6部分: 原始测序数据的质控 read比对,排序和去除重复序列 Indel区域重(“重新”的“重”)比对 碱基质量值重校正 变异检测 变异结果质控和过滤 在这个图中,我把WGS数据分析流程的各个步骤和关系都画下来了。这个流程虽然只针对于人,但对于其它二倍体生物来说,同样具有借鉴价值。这6个步骤,接下来我也会进行详细介绍,在本篇文章中我们首先介绍原始测序数据的质控。 认识测序数据——数据质控的意义 在 第1节 测序技术 中,我们已经知道现在的NGS测序,以illumina为首基本都是运用 边合成边测序 的技术。碱基的合成依靠的是化学反应,这使得碱基链可以不断地从5'端一直往3'端合成并延伸下去。 但在这个合成的过程中随着合成链的增长,DNA聚合酶的效率会不断下降,特异性也开始变差,这就会带来一个问题——越到后面碱基合成的错误率就会越高【注】 ,这也是为何当前NGS测序读长普遍偏短的一个原因。 【注】:有时候测序仪在刚开始进行合成反应的时候也会由于反应还不够稳定,同样会带来质量值的波动,不过这个波动一般都在高质量值区域(如下图)。 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此