写在前面

导师让我2周看6篇他发给我的paper，有关KG的构建和应用，应用主要在recommendation和drug方面的，然后2周后写个总结，写不好，估计就不要我啦T_T 这次主要看我和他方向和研究符不符合，对他做的东西感不感兴趣。To be honest,我也不晓得。兴趣这东西是我对这方面熟悉，有些了解，在这上面得到一些成就感，才会喜欢吧，至少我这么认为的~~

昨晚冒着被骂的风险把我简陋的总结发给导师，今早约谈，趁着还有时间再整理总结一下~

1. 应用：药物之间的相互作用预测

Large-scale structural and textual similarity-based mining of knowledge graph to predict drug–drug interactions

下图是我看完paper的整理的图【如有误，请指出】

该paper主要讲利用KG链接预测药物之间的相互作用（DDI，drug-drug interaction）。

DDI预测的以前研究是基于特征向量，直接进行特征提取与选择，将实例的特征向量表示输入机器学习模型中；本文基于相似性度量，先计算drug-drug的相似度，再计算药物对与药物对之间的相似度（将已知有interaction的药物对与未知的药物对进行相似性度量）。

KG构建

数据集dataset：来自于不同的的格式（XML，relational，graph，CSV），来自不同的数据库（DrugBank，DailyMed，Comparative Toxicogenomics Database，Uniprot，BioGRID，Unified Medical Language System，Medical Subject Headings（MeSH），National Drug File）
语法歧义消除：可采用余弦相似性（cosine similarity）、编辑距离（edit distance）、语言模型技术（language model）等；
- 余弦相似性：将词向量化（embedding）后计算两个向量夹角的余弦值cos(θ)=(A·B)/(|A|·|B|），范围为[0,1]
- 编辑距离：将一个词转为另外一个词时所需的最少编辑次数，即代价；相似度计算=1-(1/max(str1,str2));
- 语言模型技术：包括语言文法模型、统计语言模型（N-gram model、unigram model、bigram model、trigram）；用于计算一个橘子的概率大小，即量化该句子是否符合人说出来的自然语句，得分越高，句子越好。
语义分析：检查实体的概念属性，语义分析的目的？
数据集成：将上述不同来源于不同格式的数据融合，采用链接开放数据法（Linked Open Data methodology）

药物相似性度量

本文模型训练的数据是采用相似性度量值作为模型输入，而作相似性度量前需进行特征工程，这里采用局部特征和全局特征。

局部特征：根据有关药物直接相关的可用信息（化学结构、药物靶、作用机理、生理效应等）来设计特征。
- IDF：逆向文件频率（inverse document frequency），原用于处理文本，表示该词在所有文档中出现的次数，次数越多，表示该词越常见越不重要，如‘的’、‘a’等词。在这里，用IDF来处理权重，即在某一特征中，利用IDF加重罕见信息（如作用机理）的权重。
- cosine similarity：对直接相关特征IDF处理后进行余弦相似性度量，如：Mechainsm of action，IDF(t,Drugs),再对moa(d1)和moa(d2)余弦相似性度量；
全局特征：
- 词嵌入：使用Word2vec中的Skip-gram模型——基于神经网络的词的分布表示
  - word2vec：两层神经网络，用于词的向量化，是实现CBOW和skip-gram语言模型的工具
  - skip-gram模型：根据某个词预测上下文，，相比CBOW（根据上下文预测某个词）有更准确的表示
- 图嵌入：TransH、HolE——知识表示
  - TransH：将知识嵌入到某个超平面，使得一个实体在不同关系下有不同的表示，h+r=t（用预定义的特征评分函数来评估KG三元组的正确性，该过程中对实体/关系向量化）
  - HolE：将关系矩阵压缩为矢量（It represents a pair of entities (a, b) using the circular correlation (a compression of the tensor product) of their vectors）

模型

逻辑回归模型 Logistic regression：通过sigmoid()函数处理二分类问题的线性回归模型
数据不平衡：设置DDI发生率在10%~30%；模型调参
评估：用F1-score和AUPR进行模型评估
结果：DDI发生率在30%、特征组合以及结合本地和全局嵌入时训练的模型效果最佳

早上脑子有点不清醒，突然发现自己总结的都是什么乱七八糟的东西......还得继续努力学习啊！下午再继续把东西搬上来，现在去看昨天自己写的东西啦~~

来源：https://blog.csdn.net/qq_35734025/article/details/102736226

标签

药品

edg战队

Learing Something about Knowledge Graph【paper笔记】

写在前面

1. 应用：药物之间的相互作用预测

Large-scale structural and textual similarity-based mining of knowledge graph to predict drug–drug interactions

KG构建

药物相似性度量

​​​​​​​​​​​​​​模型

模型