Learing Something about Knowledge Graph【paper笔记】

天大地大妈咪最大 提交于 2019-12-02 08:09:53

写在前面

导师让我2周看6篇他发给我的paper,有关KG的构建和应用,应用主要在recommendation和drug方面的,然后2周后写个总结,写不好,估计就不要我啦T_T 这次主要看我和他方向和研究符不符合,对他做的东西感不感兴趣。To be honest,我也不晓得。兴趣这东西是我对这方面熟悉,有些了解,在这上面得到一些成就感,才会喜欢吧,至少我这么认为的~~

昨晚冒着被骂的风险把我简陋的总结发给导师,今早约谈,趁着还有时间再整理总结一下~

1. 应用:药物之间的相互作用预测

Large-scale structural and textual similarity-based mining of knowledge graph to predict drug–drug interactions

下图是我看完paper的整理的图【如有误,请指出】

paper概要图

该paper主要讲利用KG链接预测药物之间的相互作用(DDI,drug-drug interaction)。

DDI预测的以前研究是基于特征向量,直接进行特征提取与选择,将实例的特征向量表示输入机器学习模型中;本文基于相似性度量,先计算drug-drug的相似度,再计算药物对与药物对之间的相似度(将已知有interaction的药物对与未知的药物对进行相似性度量)。

KG构建

  • 数据集dataset:来自于不同的的格式(XML,relational,graph,CSV),来自不同的数据库(DrugBank,DailyMed,Comparative Toxicogenomics Database,Uniprot,BioGRID,Unified Medical Language System,Medical Subject Headings(MeSH),National Drug File)
  • 语法歧义消除:可采用余弦相似性(cosine similarity)、编辑距离(edit distance)、语言模型技术(language model)等;
    • 余弦相似性:将词向量化(embedding)后计算两个向量夹角的余弦值cos(θ)=(B)/(|A|·|B|),范围为[0,1]
    • 编辑距离:将一个词转为另外一个词时所需的最少编辑次数,即代价;相似度计算=1-(1/max(str1,str2));
    • 语言模型技术:包括语言文法模型、统计语言模型(N-gram model、unigram model、bigram model、trigram);用于计算一个橘子的概率大小,即量化该句子是否符合人说出来的自然语句,得分越高,句子越好。
  • 语义分析:检查实体的概念属性,语义分析的目的?
  • 数据集成:将上述不同来源于不同格式的数据融合,采用链接开放数据法(Linked Open Data methodology

药物相似性度量

本文模型训练的数据是采用相似性度量值作为模型输入,而作相似性度量前需进行特征工程,这里采用局部特征和全局特征。

  • 局部特征:根据有关药物直接相关的可用信息(化学结构、药物靶、作用机理、生理效应等)来设计特征。
    • IDF:逆向文件频率(inverse document frequency),原用于处理文本,表示该词在所有文档中出现的次数,次数越多,表示该词越常见越不重要,如‘的’、‘a’等词。在这里,用IDF来处理权重,即在某一特征中,利用IDF加重罕见信息(如作用机理)的权重。
    • cosine similarity:对直接相关特征IDF处理后进行余弦相似性度量,如:Mechainsm of action,IDF(t,Drugs),再对moa(d1)和moa(d2)余弦相似性度量;
  • 全局特征:
    • 词嵌入:使用Word2vec中的Skip-gram模型——基于神经网络的词的分布表示
      • word2vec两层神经网络,用于词的向量化,是实现CBOWskip-gram语言模型的工具
      • skip-gram模型:根据某个词预测上下文,,相比CBOW(根据上下文预测某个词)有更准确的表示
    • 图嵌入:TransHHolE——知识表示
      • ​​​​​​​TransH:将知识嵌入到某个超平面,使得一个实体在不同关系下有不同的表示,h+r=t(用预定义的特征评分函数来评估KG三元组的正确性,该过程中对实体/关系向量化)
      • HolE:将关系矩阵压缩为矢量(It represents a pair of entities (a, b) using the circular correlation (a compression of the tensor product) of their vectors

​​​​​​​​​​​​​​模型

  • 逻辑回归模型 Logistic regression:通过sigmoid()函数处理二分类问题的线性回归模型
  • 数据不平衡:设置DDI发生率在10%~30%;模型调参
  • ​​​​​​​评估:用F1-scoreAUPR进行模型评估
  • 结果:DDI发生率在30%、特征组合以及结合本地和全局嵌入时训练的模型效果最佳

早上脑子有点不清醒,突然发现自己总结的都是什么乱七八糟的东西......还得继续努力学习啊!下午再继续把东西搬上来,现在去看昨天自己写的东西啦~~

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!