【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。
12月9日下午,精准医疗和生物医药大数据论坛在国防科技大学研究员彭绍亮的主持下开始了下半场的内容。
江瑞——健康医疗大数据的智能信息处理
清华大学数据科学研究院医疗健康大数据研究中心副主任江瑞发表了《健康医疗大数据的智能信息处理》主题演讲。医疗健康大数据包括临床表型,生命组学,影像组学和医院管理。但数据之间数量大,异质性强,关系复杂,这些数据需要进行智能信息处理,最终用于医疗政策咨询,保险政策制定等等。因此医疗健康大数据应用核心就是智能信息处理。
非结构化的临床表型可以通过自然语言处理,通过记录表型特征用于疾病诊断。数据量大,异质性强的生命组学数据首先需要建立数据库,基因组注释再进行使用,目前dbWGFP系统内里面记录了全基因组可能的变异,大约有90亿个。面对数据量大,种类繁多的医学影像也可以通过记录分析最终用于疾病诊断。
李洪林——大数据驱动的精准药物设计
上海市新药设计重点实验室主任李洪林发表了主题为《大数据驱动的精准药物设计》主题演讲。现在网络药理学研究的主要思路就是二位组学网络与三位系统生物学的组合。网络药理学的主要计算方法有三种:基于配体,基于结构以及基于统计数据或拓普网络。
蛋白质机器与配体多重对映关系预测前提是一级序列决定其三维结构,三维结构决定其功能。蛋白质-配体之间相互作用具有杂泛性。
关于网络药理学,李洪林为大家带来了几点启示。天然产物化学空间的有用信息挖掘;药物创新重在新化学实体的创新与设计;计算与实验手段的结合提高研发效率以及对现有大数据分析可进行精确药物设计。
舒文杰——精准医学大数据管理和共享技术平台
军事医学科学院研究员舒文杰发表了《精准医学大数据管理和共享技术平台》主题演讲。精准医学研究和应用需要汇聚海量临床信息和多组学数据。生物医学数据快速增长,快速跨过了GB、TB、PB、EB 9个数量级。海量精准医学的数据汇交、管理、共享和挖掘需要大数据平台的支撑。在这些情况下,精准医学大数据中心建设需求非常迫切。
中国精准医学大数据中心包括以下五大项目平台:精准医学大数据中心基础平台,重大疾病精准医学数据库群,精准医学基础支撑数据库群,精准医学数据的整合与注释,精准医学大数据中心门户、搜索与可视化系统。
精准医学大数据中心基础平台的整体结构分为应用支撑,数据服务,存储计算支撑,采集装载以及基础设施五项。
王秀杰——多样的RNA层面调控干细胞多能性
中国科学院遗传与发育生物学研究所研究员、中心主任王秀杰发表了《多样的RNA层面调控干细胞多能性》主题演讲。日本科学家用外源表达转录因子的方法实现表皮细胞变为胚胎干细胞,这是干细胞领域的突破性进展。但诱导获得的胚胎干细胞的过程存在难度。后来发现micro RNA的表达与细胞功能性水平正相关,micro RNA是干细胞水平的标记物。同时王秀杰还详细解释了不同类型的细胞中m6 A修饰的表达。
裴剑锋——深度学习及其在化学信息学中的应用
北京大学前沿交叉学科研究院特聘研究员裴剑锋发表了《深度学习及其在化学信息学中的应用》主题演讲。深度神经网络有自动信息提取的特点。同时其对于不同但是相近的数据可以共享一个网络结构。可以使用递归神经网络和卷积神经网络来做编码。同时裴剑锋还举了一个深度神经网络具体应用的例子:药物会导致肝肾损伤,但通过深度神经编码的方式,每个原子有多条路径 把路径用神经网络编码,自己构建数据集,用其预测可能会导致的不良反应。
深度学习的关键问题在于:使用分子图形编码结合深度学习,自动学习提取分子的特征;分子二维及三维结构信息特征的编码方法;多目标深度学习;处理非结构化化学数据以及无监督学习。
陈钢——以个人基因组服务为基础的亚洲人基因组数据平台
WeGene CTO陈钢发表了《以个人基因组服务为基础的亚洲人基因组数据平台》主题演讲。DTC是直接面向消费者的基因检测,做基因检测重要的一步是样品的采集和保存,WeGene则通过产品实现了样本的良好保存。DTC致力做亚洲人的基因组数据平台,目前为止共有9000多份中国人的基因组数据,这些数量明年会不断增加。表型信息与基因信息相互结合才能达成更多的研究。表型信息方面,当下的智能硬件设备会采集大量的用户数据,通过接入对应设备的API即可获得大量用户的表型信息。
孙亮——精准医学NGS数据分析平台搭建及应用
来自中国科学院计算技术研究所的孙亮发表了《精准医学NGS数据分析平台搭建及应用》主题演讲。NGS大数据分析平台包括核心生物信息分析软件和算法及医学知识库和通用可扩展的云计算平台。平台亮点是着重于多组学分析和可视化让报告易懂。全基因组、全外显子组、靶向测序分析模块的两大核心基础分别是:NGS数据计算以及已经应用于临床的各类药物及其他权威数据库。做精准医疗首先需要对患者个体的基因型鉴定的非常准确,但突变的基因不足以作为典型的案例,因此需要进行突变过滤。突变过滤根据各类筛选条件过滤:如突变频率,碱基质量等等,常用的指标有SNP筛选和Indel筛选两种。
更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。
来源:CSDN
作者:贾维娣
链接:https://blog.csdn.net/u010708922/article/details/80127406