PacBio三代测序最大的死穴是:通量不足。
如果通量不是限制因素,那么PacBio是目前最准确的测序方式:错误率可以无限接近罕见突变的发生率(即无法分辨是测序错误还是罕见突变)。
因为三代的错误是完全随机发生的,可以靠覆盖度来纠错,而如果系统错误,这是不可纠正的。
一图展现区别:
以下这幅图的数据来源:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3443046/figure/F2/
那么为何三代通量不足?技术瓶颈了,这要从三代测序原理说起。
PacBio三代测序基本单位叫做SMRT Cell,它是这样的:实际有效面积,接近成人的大拇指指甲,在这个面积上,均匀分布着15万个小孔。
测序时,当有一个DNA分子落入一个小孔内(0或多个DNA分子,则为无效孔),该小孔能生成有效数据(这里有一个有效小孔比率,Loading率,一般是1/3左右,即5W个小孔)。测序时,每合成(延伸)一个DNA残基时,会释放带荧光标记的磷酸残基。那么连续记录这数万个小孔的荧光信号,再通过机器学习算法,即可将波信号转化成碱基序列,甚至可以获得碱基修饰信息(碱基修饰会改变波的动力学特征)。这个过程里,对聚合酶有特殊要求:
1. 速度慢
2.延伸性好
3.准确性高。
那么三代技术瓶颈,到底在哪里?
简单讲,SMRT Cell的密度不是技术瓶颈,而是激光光路和感光元件。目前做到的地步是,精确分出15万束激光,射进每个小孔,感光元件可以精确记录每个小孔每次合成时,单个磷酸残基上荧光信号。
目前提高三代的通量,有以下几个途径:
1.升级硬件。这个是最直接有效的,直接提升那几个硬件短板的规格。但是,这也是最不可能的。因为升级任何一个短板硬件,都需要整个测序仪的硬件、耗材回炉。以目前PacBio的财报来看,还未实现盈利。与Illumina相反,PacBio在硬件上的利润非常微薄。据业内人士估计,Illumina成本每台估计大约在6~10万美元(零售价直接加0),PacBio的售价略高于Illumina,但成本高好几倍,那个激光光路和感光元件放那里。。。。
2.提高Loading率。这个主要难度在建库和上样的优化上。
3.提高聚合酶延伸性并保持准确率。这个是目前PacBio(其实背后是某重组酶巨头)主要努力方向。以每Cell 5W条序列记,那么如果平均达到10kb读长,则产出为 5 x 10^8,也就是500M数据。提高到15kb则有750M。
目前在P6C4试剂下,大约每SMRT Cell平均可以做到 600M~1G数据量,个别用户达到2G(这个是DNA抽提和建库优化相当好了)。
下面有评论指出我误导rare/novel variants这块信息,OK,这里给足信息,2012年2月ABGT(PacBio产品2011年推出),有Broad Institute研究院(学界生信第一牛的单位,当然我是这么认为的)的教授开了个讲座:
然后开始详细介绍:
1. 二代如何如何先天不足
2. PacBio的特点
3. PacBio碱基质量与读长无关(PS 这点许多人也认识错误)
4. 在难检出的位点上的性能比较:
5. 这里开始提PacBio主要缺陷了:Reference Bias
7. 那么Reference Bias如何造成的? 当时的Aligner没有针对PacBio的长读长进行特殊优化。
8. 做以上数据时,Broad Institute用的是他们自家的BWA
9 . 我们今天可以知道,真正适合PacBio的Aligner当时并没有被使用 (请参考答案:请问现在三代测序的reads用什么比对? - Tang Boyun 的回答) ,
最后结论,在2012年,PacBio刚上市之初,生信Pipeline还没完善之时,随便提起一把破柴刀,就把Illumina砍了,这真是个悲伤的故事。 上面讲了2012年Broad Institute开始给PacBio背书,那么最新进展(2014、2015)有些啥呢?以下大部分资料摘自2015 ABGT:
二代测序在做外显子组测序时,有一个非常巨大的缺陷,Reads分布不均一,特别在转录起始位点与转录终止位点的具体坐标上,往往有很大偏差。目前比较火热的lncRNA研究,你用二代做的话,很可能得不到精确的转录起始坐标(所以可能的话做下RACE),即你甚至无法好好研究是那个转录因子激活了这个转录本。
我给出数据链接了,不死心的,还可以用“生信方法过滤”去试试看能不能纠正这个bia
PacBio做这个疾病的对比
再来更多疾病,更多基因
不具体列了哈,有一张表:
去年,千年棒子也出来背书了
下面讲一个完整的Story,是关于艾滋病与流行病学的:
1. 测序在病毒研究上面临的挑战。
2. 艾滋病毒的衣壳蛋白对于艾滋疫苗的研究至关重要:
3. 正常人在感染艾滋病毒后,有20%的人群会产生免疫抗体,但是与此同时,病毒也不断地在人体内产生突变,以此逃逸免疫系统的猎杀,最后的结果,往往是人体免疫速度更不上病毒进化速率,终于在整场战役中被拖垮。
4. 该项研究的实验方案,一周内从血样到测序结果,然后连续追踪同一个感染者三年,以此来研究HIV是如何在体内进化的。
5. 分析工具
6. 整个实验周期内,发现的病毒株系谱
7. 不同突变位点在整个株系中随时间的演变,记录着免疫系统与之可歌可泣的战斗历程
最后,要借用某蒲的名言:“科研上只有第一,没有第二”。而在应用上,跟随者只能被领跑者套上专利的紧箍咒。Illumina目前的优势在于成本,科研上老实讲,有点奥特了。从Broad Insitute 2012年种下的种子,现在已经开花结果了。
那么在这种研究前沿上落后了,有什么结果?我这里再爆个料,某常见蔬菜(饭桌、麻辣烫、火锅)已经被国外研究组PacBio测序完毕,但该论文数据却迟迟未发表,因为赞助方(某育种巨头)需要先将有价值的内容审核并设计专利。。。。
来源:https://blog.csdn.net/u010608296/article/details/99685200