写在前面
导师让我2周看6篇他发给我的paper,有关KG的构建和应用,应用主要在recommendation和drug方面的,然后2周后写个总结,写不好,估计就不要我啦T_T 这次主要看我和他方向和研究符不符合,对他做的东西感不感兴趣。To be honest,我也不晓得。兴趣这东西是我对这方面熟悉,有些了解,在这上面得到一些成就感,才会喜欢吧,至少我这么认为的~~
昨晚冒着被骂的风险把我简陋的总结发给导师,今早约谈,趁着还有时间再整理总结一下~
1. 应用:药物之间的相互作用预测
Large-scale structural and textual similarity-based mining of knowledge graph to predict drug–drug interactions
下图是我看完paper的整理的图【如有误,请指出】
该paper主要讲利用KG链接预测药物之间的相互作用(DDI,drug-drug interaction)。
DDI预测的以前研究是基于特征向量,直接进行特征提取与选择,将实例的特征向量表示输入机器学习模型中;本文基于相似性度量,先计算drug-drug的相似度,再计算药物对与药物对之间的相似度(将已知有interaction的药物对与未知的药物对进行相似性度量)。
KG构建
- 数据集dataset:来自于不同的的格式(XML,relational,graph,CSV),来自不同的数据库(DrugBank,DailyMed,Comparative Toxicogenomics Database,Uniprot,BioGRID,Unified Medical Language System,Medical Subject Headings(MeSH),National Drug File)
- 语法歧义消除:可采用余弦相似性(cosine similarity)、编辑距离(edit distance)、语言模型技术(language model)等;
- 余弦相似性:将词向量化(embedding)后计算两个向量夹角的余弦值cos(θ)=(A·B)/(|A|·|B|),范围为[0,1]
- 编辑距离:将一个词转为另外一个词时所需的最少编辑次数,即代价;相似度计算=1-(1/max(str1,str2));
- 语言模型技术:包括语言文法模型、统计语言模型(N-gram model、unigram model、bigram model、trigram);用于计算一个橘子的概率大小,即量化该句子是否符合人说出来的自然语句,得分越高,句子越好。
- 语义分析:检查实体的概念属性,语义分析的目的?
- 数据集成:将上述不同来源于不同格式的数据融合,采用链接开放数据法(Linked Open Data methodology)
药物相似性度量
本文模型训练的数据是采用相似性度量值作为模型输入,而作相似性度量前需进行特征工程,这里采用局部特征和全局特征。
- 局部特征:根据有关药物直接相关的可用信息(化学结构、药物靶、作用机理、生理效应等)来设计特征。
- IDF:逆向文件频率(inverse document frequency),原用于处理文本,表示该词在所有文档中出现的次数,次数越多,表示该词越常见越不重要,如‘的’、‘a’等词。在这里,用IDF来处理权重,即在某一特征中,利用IDF加重罕见信息(如作用机理)的权重。
- cosine similarity:对直接相关特征IDF处理后进行余弦相似性度量,如:Mechainsm of action,IDF(t,Drugs),再对moa(d1)和moa(d2)余弦相似性度量;
- 全局特征:
- 词嵌入:使用Word2vec中的Skip-gram模型——基于神经网络的词的分布表示
- word2vec:两层神经网络,用于词的向量化,是实现CBOW和skip-gram语言模型的工具
- skip-gram模型:根据某个词预测上下文,,相比CBOW(根据上下文预测某个词)有更准确的表示
- 图嵌入:TransH、HolE——知识表示
- TransH:将知识嵌入到某个超平面,使得一个实体在不同关系下有不同的表示,h+r=t(用预定义的特征评分函数来评估KG三元组的正确性,该过程中对实体/关系向量化)
- HolE:将关系矩阵压缩为矢量(It represents a pair of entities (a, b) using the circular correlation (a compression of the tensor product) of their vectors)
- 词嵌入:使用Word2vec中的Skip-gram模型——基于神经网络的词的分布表示
模型
- 逻辑回归模型 Logistic regression:通过sigmoid()函数处理二分类问题的线性回归模型
- 数据不平衡:设置DDI发生率在10%~30%;模型调参
- 评估:用F1-score和AUPR进行模型评估
- 结果:DDI发生率在30%、特征组合以及结合本地和全局嵌入时训练的模型效果最佳
早上脑子有点不清醒,突然发现自己总结的都是什么乱七八糟的东西......还得继续努力学习啊!下午再继续把东西搬上来,现在去看昨天自己写的东西啦~~
来源:https://blog.csdn.net/qq_35734025/article/details/102736226