Evaluation and Validation of Assembling Corrected PacBio Long Reads for Microbial Genome Completion via Hybrid Approaches
通过混合方法对微生物基因组完成的校正PacBio长读进行评估和验证
摘要
尽管不断增加的下一代测序数据和发展中的装配,几十到数百的差距仍然存在于新的微生物组装不均匀的覆盖和大量的基因组重复。第三代单分子实时(SMRT)测序技术避免了扩增伪信号,产生千倍长序列,具有完成微生物基因组组装的潜力。
然而,由于第三代序列的精度较低(约85%),需要相当数量的长读(>50X)来进行自校正和后续的从头组装。
最近开发的混合方法,使用下一代测序数据和最少5倍长的读取,已经被提出来提高微生物组装的完整性。
在这项研究中,我们评估了当代的混合方法,并证明装配校正长读数(由runCA)生产最佳的装配相比长时间阅读脚手架(例如,AHA, Cerulean和SSPACE-LongRead)和间隙填充(黑锹)。
为了生成正确的长读,我们进一步研究了长读校正工具,如ECTools、LSC、LoRDEC、PBcR流水线和proovread。我们已经证明了三种微生物基因组,包括大肠杆菌K12 MG1655、小地黄DSM1279和肝杆菌DSM2366,通过ECTools-corrected long reads成功地由runCA杂交组装成近乎完美的组合。此外,我们开发了一个工具,Patch,它实现了校正的长读和预装配的contigs作为输入,来增强微生物基因组的装配。添加20倍长读、短读的S. cerevisiae W303混合组装成115 contigs,使用验证的策略,ECTools + runCA。随后,Patch被应用于将该总成升级到35-contig的草案基因组。我们对混合方法的评估表明,通过runCA组装经过校正的ectoolst长读可以生成接近完整的微生物基因组,这表明重新分析未以最佳方式组装的现有混合数据集可以使基因组组装受益。
目前,来自太平洋生物科学公司(PacBio)的第三代单分子实时(SMRT)测序技术已被用于长读,促进了完整微生物基因组的组装[3,5 - 8]。然而,单分子读的错误率很高。因此,混合装配方法,如混合装配器(AHA)[5]和PacBio纠正读取管道(PBcR管道)[6],被提出来避免和解决这些限制——通过使用长读序列信息的支架和使用短读纠正错误;然而,一些装配仍然没有完成[9,10]。近年来,人们提出了利用长读SMRT测序数据完成微生物基因组装配的非混合方法,包括分层基因组装配过程(HGAP)和自校正的PBcR管道[3,8]。基于模拟PacBio读取在科伦等调查。年代出版[3],150 x是推荐的测序深度最大化组装使用C2连续性化学,相当于8 SMRT细胞使用RS 5 mb基因组测序系统(> 100 mb吞吐量/ RS仪器SMRT细胞)。目前,PacBio RS II系统可以产生更多的长读(每个SMRT细胞超过250Mb的吞吐量),因此使用一个或两个SMRT细胞通过非混合方法(HGAP或PBcR流水线)成功地重新组装了细菌基因组[11-13]。然而,由于非混合方法需要高覆盖率(> 50X)[14],对于相对较大的微生物基因组大小的[15]来说,其成本可能高得令人望而却步。此外,放弃之前已排序的短阅读是一种耻辱。因此,利用长读来支撑短读组装的混合方法被用于细菌基因组组装的升级;其中包括AHA[5]、天蓝色[16]和SSPACE-LongRead[17]。SPAdes 3.0是一种混合的汇编程序,它将短读和长读作为输入[10,18,19];它使用长读来关闭间隙和重复解析。PBcR管道使用短读来修剪和纠正PacBio长读,然后重新组装PacBio纠正读来生成一致序列[3]。与PBcR流水线不同,ECTools使用由短读构建的预组装单核苷酸序列进行长读校正,这使其成功应用于真核生物基因组装配(基因组大小<100Mb)[15]。虽然一些混合方法已经被用于细菌基因组装配的评估[10,12,17],但是对于它们在真核生物基因组上的表现知之甚少。此外,为了提高校正精度和效率,长读校正工具最近也得到了发展。, LoRDEC [20], LSC[21]和proovread[22]。然而,这些纠正的长读数的装配性能仍然不清楚。
来源:https://blog.csdn.net/u010608296/article/details/102777967