第三代测序为什么这么贵?

痞子三分冷 提交于 2019-11-27 13:47:13

PacBio三代测序最大的死穴是:通量不足。

如果通量不是限制因素,那么PacBio是目前最准确的测序方式:错误率可以无限接近罕见突变的发生率(即无法分辨是测序错误还是罕见突变)。

因为三代的错误是完全随机发生的,可以靠覆盖度来纠错,而如果系统错误,这是不可纠正的。

一图展现区别:                           

以下这幅图的数据来源:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3443046/figure/F2/https://pic3.zhimg.com/b455b349718a9b3657343196ff9a366e_b.jpg
那么为何三代通量不足?技术瓶颈了,这要从三代测序原理说起。

PacBio三代测序基本单位叫做SMRT Cell,它是这样的:实际有效面积,接近成人的大拇指指甲,在这个面积上,均匀分布着15万个小孔。

https://pic1.zhimg.com/283341a014baf7d3bdaeacb4d08308bc_b.jpghttps://pic1.zhimg.com/a80a7ca9fb254d429ca2b3a1b96a6cf8_b.jpghttps://pic2.zhimg.com/125d3d29c5d0288c5d593f92f2498ca1_b.jpg

测序时,当有一个DNA分子落入一个小孔内(0或多个DNA分子,则为无效孔),该小孔能生成有效数据(这里有一个有效小孔比率,Loading率,一般是1/3左右,即5W个小孔)。测序时,每合成(延伸)一个DNA残基时,会释放带荧光标记的磷酸残基。那么连续记录这数万个小孔的荧光信号,再通过机器学习算法,即可将波信号转化成碱基序列,甚至可以获得碱基修饰信息(碱基修饰会改变波的动力学特征)。这个过程里,对聚合酶有特殊要求:

1. 速度慢

2.延伸性好

3.准确性高。
https://pic3.zhimg.com/191e9ddc6a8209ea934fb16c5bc6d45a_b.jpg
那么三代技术瓶颈,到底在哪里?
简单讲,SMRT Cell的密度不是技术瓶颈而是激光光路和感光元件。目前做到的地步是,精确分出15万束激光,射进每个小孔,感光元件可以精确记录每个小孔每次合成时,单个磷酸残基上荧光信号。

目前提高三代的通量,有以下几个途径:                                          

1.升级硬件。这个是最直接有效的,直接提升那几个硬件短板的规格。但是,这也是最不可能的。因为升级任何一个短板硬件,都需要整个测序仪的硬件、耗材回炉。以目前PacBio的财报来看,还未实现盈利。与Illumina相反,PacBio在硬件上的利润非常微薄。据业内人士估计,Illumina成本每台估计大约在6~10万美元(零售价直接加0),PacBio的售价略高于Illumina,但成本高好几倍,那个激光光路和感光元件放那里。。。。

2.提高Loading率。这个主要难度在建库和上样的优化上。

3.提高聚合酶延伸性并保持准确率。这个是目前PacBio(其实背后是某重组酶巨头)主要努力方向。以每Cell 5W条序列记,那么如果平均达到10kb读长,则产出为 5 x 10^8,也就是500M数据。提高到15kb则有750M。

目前在P6C4试剂下,大约每SMRT Cell平均可以做到 600M~1G数据量,个别用户达到2G(这个是DNA抽提和建库优化相当好了)。

下面有评论指出我误导rare/novel variants这块信息,OK,这里给足信息,2012年2月ABGT(PacBio产品2011年推出),有Broad Institute研究院(学界生信第一牛的单位,当然我是这么认为的)的教授开了个讲座:

https://pic4.zhimg.com/80/b303e977642b592c093f995fbfa846db_hd.jpg然后开始详细介绍:
1. 二代如何如何先天不足
https://pic2.zhimg.com/b29a6d21d170d40c3ff73b6c85b21a05_b.jpg2. PacBio的特点
https://pic3.zhimg.com/80/e9707a40f34cd0617a5618b93a4b39b6_hd.jpg
3. PacBio碱基质量与读长无关(PS 这点许多人也认识错误)
https://pic1.zhimg.com/085309dfd36a481cba79a1e9929bb638_b.jpg4. 在难检出的位点上的性能比较:
https://pic3.zhimg.com/80/0c1f1d55beb24244a1ad7f23cd447aaa_hd.jpg
https://pic1.zhimg.com/de042138957c9d1457a7346a329440d4_b.jpg5. 这里开始提PacBio主要缺陷了:Reference Bias
https://pic3.zhimg.com/4ea81e6a9ffc6c45da4865a4f0e991de_b.jpg7. 那么Reference Bias如何造成的? 当时的Aligner没有针对PacBio的长读长进行特殊优化。
https://pic3.zhimg.com/80/54e629eaf3e81f687ba3c48d7562778e_hd.jpg8. 做以上数据时,Broad Institute用的是他们自家的BWA
https://pic3.zhimg.com/fc57098db581777aa8141df8701d86a6_b.jpg9 . 我们今天可以知道,真正适合PacBio的Aligner当时并没有被使用 (请参考答案:请问现在三代测序的reads用什么比对? - Tang Boyun 的回答) ,

最后结论,在2012年,PacBio刚上市之初,生信Pipeline还没完善之时,随便提起一把破柴刀,就把Illumina砍了,这真是个悲伤的故事。                               上面讲了2012年Broad Institute开始给PacBio背书,那么最新进展(2014、2015)有些啥呢?以下大部分资料摘自2015 ABGT:https://pic1.zhimg.com/5ed149d0af5f946c3d9e4f7fd88711dc_b.jpg
https://pic4.zhimg.com/76c08eb8cbb2535228b168604be87233_b.jpghttps://pic3.zhimg.com/c19577975301d6fc83e99bb09d165a2e_b.jpg
二代测序在做外显子组测序时,有一个非常巨大的缺陷,Reads分布不均一,特别在转录起始位点与转录终止位点的具体坐标上,往往有很大偏差。目前比较火热的lncRNA研究,你用二代做的话,很可能得不到精确的转录起始坐标(所以可能的话做下RACE),即你甚至无法好好研究是那个转录因子激活了这个转录本。
https://pic2.zhimg.com/06a268774cd4839757d37e8c0518a3e5_b.jpg我给出数据链接了,不死心的,还可以用“生信方法过滤”去试试看能不能纠正这个biahttps://pic2.zhimg.com/b37aee77769e5392d913918f4dd87add_b.jpg
PacBio做这个疾病的对比
https://pic1.zhimg.com/f628152df878b65293ec24fd79e90534_b.jpg再来更多疾病,更多基因
https://pic1.zhimg.com/80/76f53d9679813825c522cdd6e7e3869c_hd.jpghttps://pic4.zhimg.com/78e4ec318236385c6475b46f73b44c4b_b.jpghttps://pic1.zhimg.com/5d02f5010d3b51992d7daf85e06e390c_b.jpg不具体列了哈,有一张表:
https://pic1.zhimg.com/58194d8bbb27ee9525f287bd4946e8c0_b.jpg
去年,千年棒子也出来背书了
https://pic4.zhimg.com/8bd3dd02e9dccb3c57724b62fc2a5ddb_b.jpg
下面讲一个完整的Story,是关于艾滋病与流行病学的:
1. 测序在病毒研究上面临的挑战。
https://pic1.zhimg.com/d07f0bcf8b4481ec67a672a00736290c_b.jpg2. 艾滋病毒的衣壳蛋白对于艾滋疫苗的研究至关重要:
https://pic1.zhimg.com/e520452414234d5e2a93f35b9d1ac7a0_b.jpg3. 正常人在感染艾滋病毒后,有20%的人群会产生免疫抗体,但是与此同时,病毒也不断地在人体内产生突变,以此逃逸免疫系统的猎杀,最后的结果,往往是人体免疫速度更不上病毒进化速率,终于在整场战役中被拖垮。
https://pic3.zhimg.com/80/cb7e17c799417a0c8574a936b44f57f6_hd.jpg4. 该项研究的实验方案,一周内从血样到测序结果,然后连续追踪同一个感染者三年,以此来研究HIV是如何在体内进化的。
https://pic1.zhimg.com/baf285994af0e42bc929e9edf9ad61c8_b.jpg5. 分析工具
https://pic3.zhimg.com/02664b152046c08ab0c7368e82612726_b.jpg6. 整个实验周期内,发现的病毒株系谱
https://pic1.zhimg.com/f80c7710fa8e4ef56c05b79cd3286d6c_b.jpg7. 不同突变位点在整个株系中随时间的演变,记录着免疫系统与之可歌可泣的战斗历程
https://pic1.zhimg.com/2520a49b629b6ba3f7d74e51deaf69fc_b.jpg
最后,要借用某蒲的名言:“科研上只有第一,没有第二”。而在应用上,跟随者只能被领跑者套上专利的紧箍咒。Illumina目前的优势在于成本,科研上老实讲,有点奥特了。从Broad Insitute 2012年种下的种子,现在已经开花结果了。

那么在这种研究前沿上落后了,有什么结果?我这里再爆个料,某常见蔬菜(饭桌、麻辣烫、火锅)已经被国外研究组PacBio测序完毕,但该论文数据却迟迟未发表,因为赞助方(某育种巨头)需要先将有价值的内容审核并设计专利。。。。

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!