基因组学技术新进展与展望
于军 任鲁风 王绪敏
(中国科学院北京基因组研究所)
近十年来,由“下一代测序(next generation sequencing; NGS)”技术引领的基因组科学与技术正在一个空前的高速度推动下迅猛发展。这个发展势头的加速度之高,其研究成果在生物医学以及其他各生物相关领域应用和推广的渗透力之强,其对科学总体发展和社会进步的影响之大,使我们不得不刮目相看,必须要阖目冥思。首先,就中国生命科学与技术的发展而言,在过去的40年里,我们既没有掌握以DNA测序为核心的基因组核心技术,也没在相关仪器、试剂与耗材的研发方面取得任何突破性进展,更没有建立具有权威性、实用性、永久性和用户友好的相关数据库和知识库体系,所以任何技术源头的控制、高技术含量的仪器禁运和数据传运光缆的故障等都会大面积地、深刻地影响到中国生命科学的发展进程,至少在科学源头创新和发展速度上一定如此。其次,尽管在过去的十年里中国科学家积极参与了数个国际化的基因组学研究计划(包括人类基因组计划、人类基因组单倍体型图计划、千人基因组计划等),但是我国基因组学研究整体仍处在“拿着别人造的枪,装着买来的弹,打着别人打剩下的鸟”的基本局面。尤其在仪器和设备研发上,还处在“一无所有”的初级阶段。尽管各中原由诸多,且十分错综,我们仍应实事求是,回顾历程,分析现状,为未来的发展找到务实性的道路。
目前基因组学技术的发展主要涉及三个基本领域:DNA技术、光电技术和计算机技术。首先,基因组技术的实质是核苷酸(包括DNA和RNA)技术,其核心技术包括:DNA杂交、桑格(Sanger)法测序、寡聚核苷酸合成、PCR(DNA聚合酶链式扩增)、RNA逆转录等。其次,光电技术已经取代了基于生物化学原理的主要方法成为DNA技术相关仪器的核心部件(如CCD照相机、激光管、微流控组件等)。最后,由于DNA技术产生大量的数据和信号,信息的存储、共享、挖掘和分析等成为信息利用的瓶颈,因此计算机技术的全面介入已成为必然。尽管基因组技术涉猎相对广泛,我国科学界和企业界对任何这些技术的理论创新性贡献还基本是零。此外,DNA技术的应用主要是核心型仪器的研发,比如各类DNA微阵列(microarray)、高性能PCR仪、高速度DNA测序、精确核苷酸合成仪等,我国对这些基本技术的应用创新和方法创新也几乎是零。可见,我们必须在未来的十年里同时创造科学和技术奇迹,理论、应用和方法齐头并进,才能突破目前的“双零”困境,从而彻底变被动局为主动,寻求自己的发展道路。
目前,由于转化医学的强烈需求,国际上在DNA测序技术的研发和应用领域均发展迅猛。个体化基因组测序(精确测定每一个人的全基因组序列)已经从疾病的诊断和治疗(包括儿童罕见疾病、简单遗传疾病和癌症等),走到正常人群,并将最终造福每一个有意愿测定自己基因组并自愿信息共享的人。例如,最近美国和英国政府分别斥数亿巨资计划测定十万正常人群的个体基因组序列,为建立全民基因组数据库做理论和技术准备。在美国,随着测序中心在医院的建立,基于全基因组序列信息的诊断和治疗已在医疗制度成熟和医学发达的西方社会逐渐成为现实。纵览生命科学与生物医学的发展,不仅以DNA测序技术为前导的生命科学前沿竞争十分激烈,相关的新应用和新方法也层出不穷。DNA测序技术的应用已经不仅仅停留在测定基因组序列上,同时也为科学研究拓展空间(如表观组学和核酸组学),为更精准的分子医疗诊断提供手段和基本技术。近年来基因组科学与技术领域最突出的全球性问题是“大数据”(big data)的迅速积累和信息的高效利用。因此,高性能计算、并行化计算和云计算等作为生物数据管理平台已经成为必然。此外,数据搬运和共享的压力使大型公共平台都在寻求政府投资外的支持。比如,美国国家生物技术信息中心(NCBI)已经宣布停止收集高通量测序产生的数据,并请Google和亚马逊等公司来协助收集和管理数据。
虽然DNA测序技术已经取得了长足的进步和突破,极少量新款仪器甚至已经主导基本市场,但是,这些仪器所用技术仍然有巨大的改进空间,也存在着诸多的技术和应用瓶颈,如准确性、测序长度和成本控制等。尤其当此类高端技术几乎全部受国外两、三家企业的垄断的时候,我们必须要知彼知己,加快我国在该领域原始创新的积累,以充分的信心和准备来迎接新机遇和更大的挑战。
一、国际重大研发进展
(一)高通量NGS技术
高通量NGS平台自2005年问世以来,已经历了3次大幅度的变革(主要是测序通量的大幅度增加)。迄今已达单台设备日产数据量在1010 bp(碱基对或核苷酸)水平,使测定个人基因组序列的成本降低至数千美元。目前,高通量NGS技术已经成为生命科学领域中应用最为广泛的研究手段。现阶段市场主流设备主要包括Illumina、Life Technologies和Roche等公司的测序分析系统[1]。
市场份额最大的Illumina系统:美国Illumina公司开发的高通量测序系统是依据合成酶促可逆链终止法原理[2],主要包括2个系列:单次运行数据产量最高的HiSeq2000/2500系统和中等通量个人型MiSeq系统。HiSeq2000/2500系统可以在2周内完成6×1011 bp数据,相当于覆盖一个人基因组200倍,试剂成本约3万美元,序列读长2×100 bp。MiSeq系统序列读长2×250 bp,2天产出约8×109 bp数据。
NGS技术中读长最长的Roche 454系统:美国Roche公司开发的454系统依据合成酶促焦磷酸发光原理[2],可以获得750 bp的平均读长,但其总体通量较低,最新升级版本GS FLX+系统一天内可以产生7.5×108 bp数据,而其个人化版本Junior系统仅能产生5×107 bp数据,单位产量成本较高,但读长上的优势是基因组学研究中不可或缺的因素,虽然其他系统也在读长上不断提升,但454系统仍在这一因素上独占鳌头。
最具发展潜力的Life Technologies Ion PGM/Ion Proton系统:美国Life Technologies公司收购Ion Torrent公司后,先后推出了Ion PGM和Ion Proton系统,这是目前上市的唯一一个利用电化学原理进行序列分析的测序系统,其测序反应在集成了数以亿计的电化学传感器的半导体芯片上完成[3]。最新上市的Ion Proton系统配合Ion PI芯片,可以在2~4小时内获得109 bp数据,读长达到200 bp。预期半年后上市的Ion PII芯片,则可以在一天内完成一个人的基因组测序工作(20倍覆盖)。
(二)第三代单分子核酸测序技术
PacBio RS 和Heliscope系统:与NGS不同的第三代测序技术以单分子测序作为技术标志。目前存在于市场上的第三代测序技术仅有美国的Pacific Biosciences公司开发的RS系统和Helicos Biosciences(已于2012年11月申请破产保护)的Heliscope系统。PacBio的RS系统利用了物理学中零模波导的原理,将单个DNA链分子上的聚合反应通过荧光基团发光进行实时碱基识别[2,4]。他们最新上市的XL试剂,可以实现超过4300 bp的平均读长,每个SMRT芯片能够在1.5~2小时内产生2~2.5×108 bp数据[5]。这一系统目前存在的最大问题是准确性仅仅达到85%。
纳米孔测序技术:近年来,物理学家对于利用核苷酸通过电场时的电位变化来测定序列进行了多种尝试。目前看来最接近于市场的是英国Oxford Nanopore Technologies公司开发的MinION和GridION系统。其原理是利用DNA单链通过由凝血素构成的纳米孔结构时,以电位差的变化测定DNA的序列[6]。虽然该公司对这个系统的性能描述异常优异(如读长可达上万碱基),但至今尚未公开数据,市场上可行性尚不知。
其它尚未上市但具有发展潜力的测序技术:Intel公司、普渡大学和伊利诺伊大学的科学家联合研发,以SOI-FET器件为信息获取器件,以螯合物为探针,实现了dNTP与单链DNA聚合反应的实时监测和表征[7]。基于通过测量纳米孔上结合的金属氧化硅电容的电压波动来获取核酸信息的原理,IBM公司和Roche公司合作,研究出了一种被称为DNA晶体管的纳米器件,通过多层金属-介质结构,在多层金属层之间施加循环电场来控制DNA单链在纳米孔中的运动从而实现对单核苷酸的识别和表征[8]。
尽管第三代测序技术的雏形还比较模糊,但是NIH和欧洲各国的DNA测序仪研发投资还是放在了这一代上面。一般说来,一个新测序仪的原理设计从实验室到市场至少需要5~10年的时间,因此目前NGS相关仪器还会继续主导市场。
(三)基因组学信息技术
基因组学研究产生了空前大量的以指数倍数生长的数据。按照一个人的基因组有30亿个核苷酸或bp计算,每个人的基因组信息(包括基因组序列和功能注视信息)大约需要3TB的数据储存空间。迄今,全球已经完成数千人的基因组测序工作,这些未整理的数据为信息存储、传递和分析带来巨大的压力。同时,基因组信息的增长速度已经远远超过IT业的发展速度,因此如何有效和安全地使用这些信息,为发展中的信息产业带来挑战和机遇。
基于GPU的并行化计算技术:图形处理器(GPU)最初用于生命科学领域时主要是实现分子模型和蛋白质结构模拟的加速,随着GPU技术的发展,越来越多的在更广泛的领域中得以应用,特别是在基因组学研究工作中对核酸序列的分析技术上,实现了巨大的加速作用。以下列举了几个较为典型的GPU基因组学分析软件[9]。
软件名 |
功能 |
对比软件 |
加速效果 |
开发机构 |
STOCHSIMGPU |
生物系统随机性模拟 |
NRM |
提速85倍 |
英国牛津大学 |
GBOOST |
基因相互作用 |
BOOST |
提速40倍 |
香港科技大学 |
MUMmer-GPU |
短序列拼接 |
MUMmer |
提速10倍 |
美国马里兰大学 |
GPU-Blast |
序列比对 |
Blast |
提速3~4倍 |
美国卡内基梅隆大学 |
SARUMAN |
微生物基因组拼接 |
SARUMAN(CPU) |
提速25倍(36bp)、5倍(100bp) |
德国比勒费尔德大学 |
DecGPU |
短片段纠错 |
hSHREC |
提速22倍 |
新加坡南洋理工大学 |
异构计算和云计算技术:异构计算技术是在GPU并行加速技术上发展起来的新型计算技术,即利用CPU的逻辑运算能力和GPU浮点运算能力,甚至用FPGA(field-programmable gate array)技术完成部分固态计算任务,有效地利用不同计算架构下的最适计算能力,从而实现最大程度加速海量信息的分析和挖掘。虽然异构计算的优势明显,但需要根据应用的内容重新编写算法和软件代码,从而在系统移植上具有相当的难度。不可否认的是由于其高效性,异构计算仍然被认为是未来解决基因组学乃至生命科学海量数据分析的重要发展方向[10]。
云计算是基于计算资源的网络化共享架构,一方面实现海量数据的云态存储,解决日益增长的数据存储需求,另一方面利用接入网络的计算资源,分配计算任务至空闲云端系统,降低计算资源的依赖程度。云计算已经在Google和Amazon的商业服务中实现,目前发展的主要限制因素是网络带宽对数据传输效率的影响[10]。
云计算在生命科学乃至基因组学中实现广泛应用需要满足以下条件:适当的安全性、用户有效的通讯能力、满足需求并具扩展性的存储能力、满足需求并具扩展性的分析能力、具扩展性的接收数据能力、数据移植的支持能力、与其他云系统的数据交互能力、与公用数据的交互能力等。这些需求既是云计算实现的技术瓶颈,也是云计算优势的体现[11]。
二、国内研发现状
我国在基因组学技术领域,特别是先进和高端技术领域,处于全面落后的态势。从国际进展中可以发现,目前具有领先性的相关技术无一例地外均为美欧等国家垄断。究其原因在于,我国在先进技术开发方面支持力度微小,导致研究基础薄弱,在技术开发所涉及的基础学科上未形成学科体系。尤其是基因组学技术的研发有赖于如生命科学和物理学、化学、材料科学等多个学科的交叉和融合,低水平和低质量的重复研发和微薄的资金投入,很难在我国培育此领域的原始创新能力。尽管如此,近年来国家已经有意识地培育了相关领域的力量,取得了一定的引进吸收和集成创新的若干成果。
目前我国致力于高通量NGS技术研发的机构和团队有:
(1)深圳华因康基因科技有限公司研发的Pstar-II系列测序系统,采用连接酶测序原理,读长10~30 bp,通量0.3~2×109 bp数据。
(2)东南大学/无锡艾吉因生物信息技术有限公司研发的AG系列测序系统,亦采用连接酶测序原理,读长30~50 bp,通量1~10×109 bp数据。该团队受到了科技部863项目资助,预期将于2015年实现单次反应数据产量5×1011 bp。
(3)中国科学院北京基因组研究所/半导体研究所联合团队研发的BIGIS系列测序系统,采用焦磷酸测序原理,读长600~700 bp,通量大约8×108 bp,设备成本约为进口同类产品的1/4,消耗试剂成本约为进口产品的1/10。这一项目受中科院科研装备研制项目资助完成,也是目前唯一达到市场主流设备性能的国产化测序系统,同时也是唯一在发表论文中公布了产出数据的国产化测序仪[12]。项目组目前正在进行量产化工程样机的自主研制,预期2013年中期完成工程机开发,2014年初投放市场。
(4)北京大学黄岩谊团队基于荧光标记焦磷酸发光原理研发的NGS技术[13],获科技部863项目资助。
(5)清华大学刘鹏团队、上海交通大学王志民团队均受到科技部863项目资助研发NGS或第三代测序技术。
三、发展趋势及前沿展望
目前,不仅DNA测序技术的生命力还没有完全体现出来,基因组学其它技术也还远远没有达到满足实际应用的程度。特别是在基因组学技术进入临床领域打开个体化医疗大门之际,对于技术的实用性、适应性、稳定性等的要求提升到了前所未有的高度[14]。
由于核酸测序技术的发展动力来源于不同学科的交叉融合,愈来愈多的物理学、化学、材料科学的基本原理被用于对碱基的辨别,并体现出其较传统生物化学原理更为优越的性能优势。因此,引导和支持不同学科的融合和交流,鼓励源头和原始创新是非常重要的,也是DNA测序技术乃至其它生命科学相关技术发展的必由之路。
对于我国来说,在基因组学技术领域有所突破成为赶超国际科学前沿的难得机遇。首先,基因组科学与生物信息学等相关领域已成为生命科学发展的主要生长点,这些领域的成果不仅具有广谱性和引领性,也且还可以直接用到临床实践,各国科学家和政府都想在这个领域有所建树。其次,多年来的规模化的投入已经奠定了一定程度的技术和理论基础,技术原理基本清楚,如何在现有技术的水平上实现更多的原始创新和更广泛的应用,成为这一领域产生突破的核心问题。第三,由于基因组学研究可规模化的特点,集中力量的大投入,成果明显(比如人类基因组计划38亿美元的投入为美国社会带来了7960亿美元的经济价值[15]),带动力强。我们预言,以集成性为特点,以市场和全民健康需求为拉力的基因组技术还会继续高速发展,其巨大的社会效益将在未来的10~20年里全面显现出来。
参考文献
[1] Eisenstein M. The battle for sequencing supremacy [J]. Nature Biotechnology, 2012, 30(11): 1023–1026
[2] Zhou X, Ren L, Li Y, et al. The next-generation sequencing technology: a technology review and future perspective [J]. Science China Life Sciences, 2010, 53(1): 44-57
[3] Rothberg JM, Hinz W, Rearick TM, et al. An integrated semiconductor device enabling non-optical genome sequencing [J]. Nature, 2011, 475(7356): 348-352
[4] Levene MJ, Korlach J, Turner SW, et al. Zero-mode waveguides for single-molecule analysis at high concentrations [J]. Science, 2003, 299(5607): 682-686.
[5] Monica Heger. PacBio's XL Chemistry Increases Read Lengths and Throughput; CSHL Tests the Tech on Rice Genome [EB/OL]. http://www.genomeweb.com/sequencing/pacbios-xl-chemistry-increases-read-lengths-and-throughput-cshl-tests-tech-rice, November 13, 2012
[6] Cherf GM, Lieberman KR, Rashid H, et al. Automated forward and reverse ratcheting of DNA in a nanopore at 5-Å precision [J]. Nature Biotechnology, 2012, 30(4): 344-348
[7] Credo GM, Su X, Wu K, et al. Label-free electrical detection of pyrophosphate generated from DNA polymerase reactions on field-effect devices [J]. Analyst, 2012, 137(6): 1351-1362
[8] Luan B, Martyna G, Stolovitzky G. Characterizing and controlling the motion of ssDNA in a solid-state nanopore [J]. Biophysical Journal. 2011, 101(9): 2214-2222
[9] Matthew Dublin. Next-Gen GPUs [EB/OL]. http://www.genomeweb.com/informatics/next-gen-gpus, August 2011
[10] Schadt EE, Linderman MD, Sorenson J, et al. Computational solutions to large-scale data management and analysis [J]. Nature Reviews Genetics, 2010, 11(9): 647-657
[11] Grossman RL, White KP. A vision for a biomedical cloud [J]. Journal of Internal Medicine, 2012, 271(2): 122-130
[12] Yuan L, Ren L, Li Y, et al. A Complete Genome Assembly of Glaciecola mesophila sp. nov. Sequenced by Using BIGIS-4 sequencer system [J]. Science China Life Sciences, 2011, 54(9): 835-840
[13] Sims PA, Greenleaf WJ, Duan H, et al. Fluorogenic DNA sequencing in PDMS microreactors [J]. Nature Methods. , 2011, 8(7): 575-580
[14] Shendure J, Aiden EL. The expanding scope of DNA sequencing [J]. Nature Biotechnology, 2012, 30(11): 1084–1094
[15] Battelle Technology Partnership Practice. Economic impact of the Human Genome Project [R/OL]. http://www.battelle.org/docs/default-document-library/economic_impact_of_the_human_genome_project.pdf?sfvrsn=2, May 2011