Evaluation and Validation of AssemblingCorrected PacBio Long Reads for MicrobialGenome Completion
Evaluation and Validation of Assembling Corrected PacBio Long Reads for Microbial Genome Completion via Hybrid Approaches 通过 混合方法 对微生物基因组完成的 校正PacBio长读 进行评估和验证 摘要 尽管不断增加的下一代测序数据和发展中的装配,几十到数百的差距仍然存在于新的微生物组装不均匀的覆盖和大量的基因组重复。第三代单分子实时(SMRT)测序技术避免了扩增伪信号,产生千倍长序列,具有完成微生物基因组组装的潜力。 然而,由于第三代序列的精度较低(约85%),需要相当数量的长读(>50X)来进行自校正和后续的从头组装。 最近开发的混合方法,使用下一代测序数据和最少5倍长的读取,已经被提出来提高微生物组装的完整性。 在这项研究中,我们评估了当代的混合方法,并证明装配校正长读数(由runCA)生产最佳的装配相比长时间阅读脚手架(例如,AHA, Cerulean和SSPACE-LongRead)和间隙填充(黑锹)。 为了生成正确的长读,我们进一步研究了长读校正工具,如ECTools、LSC、LoRDEC、PBcR流水线和proovread。我们已经证明了三种微生物基因组,包括大肠杆菌K12 MG1655、小地黄DSM1279和肝杆菌DSM2366