IEEE EMBS International Conference on Biomedical & Health Informatics ICBHI 2019(应该是B类)
文章目录
Abstract
预测缺失的药物-靶标关系可以帮助加快药物研究中化学药物与靶标蛋白之间未知相互作用的鉴定过程。 在本文中,我们完全基于拓扑网络,采用Weisfeiler-Lehman神经网络方法来捕获特征,并了解药物-靶标相互作用的模式。 我们证明了我们的方法能够学习复杂的药物靶向拓扑特征,并且在AUROC方面优于其他基于相似性的方法。
Introduction
确定药物-靶标相互作用(DTI)是药物科学的重要组成部分[1]。 每个药物发现过程涉及的成本约为18亿美元,持续时间可能会超过10年[2]。 因此,药物-靶标相互作用的预测可能会缩小搜索空间,从而帮助到生物学家。 药物-靶标相互作用的预测旨在鉴定已知/新靶标与已知/新药物之间的可能相互作用。
近年来,化学基因组学方法变得越来越流行,他们利用药物中的化学信息和蛋白质中的基因组信息以及已知的已知药物-靶标相互作用进行预测[3][4]。 这些方法中的许多方法将DTI问题建模为机器学习问题,并经常建立由可用交互数据集训练的分类器。 该分类器用于预测未知的相互作用[4]。 化学基因组学方法采用了各种技术,包括二部图[5] [6],推荐系统[7] [8]和监督分类问题[9] [10]。
在过去的十年中,DTI网络分析,尤其是基于DTI网络拓扑的药物-靶标链接预测已成为DTI预测的主要研究领域之一[11] [12]。 这些方法中的许多方法不仅使用药物-靶标相互作用信息,还使用化学物质和蛋白质的特性,药物-药物相似性/相互作用和蛋白质-蛋白质相似性/相互作用将问题建模为机器学习分类问题。 这些方法中的大多数都是基于关联假设[11] [13],其中相似的药物可能具有相似的靶标,反之亦然。 但是,众所周知,这种假设不一定总是正确的。
仅基于网络拓扑信息的近期工作很少。 这些作品大多对每个目标药物的预测药物进行排名[14],或者提供未分类的新药物使用建议列表[15]。 最近,Yu等人 [6]纯粹基于已知的DTI信息,研究了相似性指标对DTI的预测能力。 即,他们使用公共邻居(CN),Jaccard索引,优先附件(PA)和Katz索引作为相似性索引。
最近,Weisfeiler-Lehman神经机器(WLNM)被提出用于复杂网络上的链路预测,它代替了预定义的启发式算法,而是为网络本身学习了合适的启发式算法[16]。 WLNM已被用于预测复杂网络(如社交媒体)中的链接,但据我们所知,它已被DTI网络所采用。 在本文中,我们在DTI双向图(BG-WLNM)上使用了经过修改的WLNM,并显示可以通过使用神经网络(NN)提取已知相互作用的局部模式来学习药物-靶标相互作用对。 我们将我们的方法的实验结果与基于相似度指标的启发式方法进行了比较,并显示出接收器工作特性曲线下的面积(AUROC)优于其他方法。
Similarity Indices
相似性指标是用于链接预测的启发式方法,可以基于计算启发式方法所需的最远节点将其分为:一阶,二阶和高阶启发式方法[11]。 为了与我们的方法进行比较,本文中使用的相似性指标如下:
- 公共邻居(CN):
- Jaccard指数:
- 优先附件(PA)[17]:
- Katz指标:
Prediction Methodology
A. Problem Statement
药物-靶标相互作用的预测是通过二分图中的链接预测来制定的。令为二部图,其中是一组顶点,包括药物(化合物)和目标(蛋白质)和是药物和目标之间的一组边缘,代表它们的相互作用。
DTI二分图的示例如Fig. 1(a)所示.两组之间的实线表示已知相互作用,而虚线表示未知相互作用。通常,相互作用网络可以用邻接矩阵表示,如下所示:
其中实际上表示对,是矩阵的第个元素。目标是为每个分配一个分数,或将其分类为是否相互作用。
B. BG-WLNM Workflow
如图2所示,所提出的链路预测算法包括三个步骤:
- 提取子图
- 编码子图
- 学习拓扑特征
第一步,识别药物-靶相互作用对(阳性样品)并从非相互作用对中随机取样(阴性样品)。 请注意,由于DTI网络非常稀疏,因此在DTI预测文献中,大多数阴性样本是在非相互作用(未知)对中随机选择的[11] [19]。然后,在每对药物-靶标样品上采用步骤1和2,以创建编码的拓扑特征,代表为该对样品的周围拓扑。 最终,在第3步中,对神经网络进行了训练以学习拓扑特征。
1). 封闭子图的提取: 在此步骤中,对于每个对,都会创建一个带有预定义个节点的封闭子图,以捕获的周围信息。 对于每个样本,我们不断将等添加到子图中,直到和没有其他邻居或子图的大小变为或更大。Fig.1(b)中显示了提取的子图的示例,该图从网络中提取了6个节点的子图,以捕获的周围环境。 在此示例中,在第一次迭代中将,和添加到了子图对,在第二次迭代中将添加到了对。
2). 提取的子图的模式编码:在此步骤中,对每个子图应用顶点排序。 图顶点的顺序对于编码封闭的子图至关重要。图标记是从顶点到有序集合(颜色)的映射:,其目的是当且仅当它们在图内的结构角色相似时,才将两个不同的封闭子图的节点分配给相应邻接矩阵中的相似索引。 由于机器学习模型按顺序读取数据,因此基于顶点的结构角色的稳定排序对于学习有意义的模型至关重要。
WL算法是一种基于图拓扑确定顶点顺序的图标记方法。 但是,由于需要排序,因此非常耗时。 相反,我们利用[20]中提出的改进的WL算法(PALETTE-WL),该算法被证明在计算上更加有效。
一旦完成了图标注,所选的子图形将被制成邻接矩阵。 然后,由于邻接矩阵是对称的,因此取上三角矩阵并将其垂直馈送到完全连接的神经网络。
3). 学习拓扑特征: 作为最后一步,我们训练神经网络,其中包含正/负样本(对),它们由封闭的上三角邻接矩阵表示。 矩阵垂直馈送到前馈神经网络。 神经网络可以从封闭的子图中学习非线性拓扑特征,而这些子图很难通过简单的启发式方法进行建模。
Experimental Results
A. Datasets
在这项工作中,我们使用了一个公共域数据集[21],它对应于四种不同的目标蛋白类型,即核受体(NR),G蛋白偶联受体(GPCR),离子通道(IC)和酶( E)。Table. 1显示了药物的数量,靶标,它们之间的相互作用以及DTI比率即。
来源:CSDN
作者:雨y飘零久
链接:https://blog.csdn.net/qq_27926119/article/details/103909986