三代测序及基于三代数据的基因组组装流程评估
三代测序及基于三代数据的基因组组装流程评估 2018-04-04 12:13 名词解释 1D:ONT平台仅测一个DNA分子的一条链,测序通量比2D高但准确率低于2D序列。 2D:bi-directional reads即ONT平台测DNA分子的正负两链并互相矫正合并的测序数据。 OLC:Overlap-Layout-Consensus算法,先查找全部序列的重叠区域(overlap),基于重叠区域可以获得全部序列的布局图(layout),最终依此预测一致性序列(consensus),该算法为一/三代测序(长序列)的主流算法。 DBG:De-Bruijn graph算法,先将序列打断为更短的k-mer,然后再进行构图,该算法为二代测序(短序列)的主流算法。 Na50:将组装结果从组装错误点打断再进行N50统计的结果。 背景介绍 测序平台及其优势介绍: PacBio(Pacific Biosciences) RSⅡ后续为方便描述会将该平台的数据简称为PacBio数据: 利用单分子荧光技术进行测序,测序读长为5-60kb(平均长度12kb左右)。 测序错误极少存在偏好性,绝大部分为随机错误,可加大测序量矫正至错误率低于0.01%。 数据产出量高,每个run能产出1Gb的数据。 MinION(Oxford Nanopore Technology)后续为方便会将该平台的数据简称为ONT数据: