Lima, R., et al. (2019). “A logic-based relational learning approach to relation extraction:The OntoILPER system.” Engineering Applications of Artificial Intelligence, Elsevier 78: 142-157.
- 机器学习中可能的函数构成的空间称为假设空间
abstract
关系提取(RE)是检测和表征文本中实体之间的语义关系的任务,在过去的二十年中,尤其是在生物医学领域,它已变得越来越重要。已经使用有监督的机器学习技术发表了许多有关关系提取的论文。这些技术大多数依赖于统计方法,例如基于特征的方法和基于树核的方法。这种统计学习技术通常基于用于表示示例的命题假设空间,即它们采用特征的属性值表示。这种表示形式有一些缺点,特别是在复杂关系的提取中,这需要有关所涉及实例的更多上下文信息,即,它不能从解析树中有效捕获结构信息而不会丢失信息。在这项工作中,我们介绍了OntoILPER,这是一种基于逻辑的关系提取关系学习方法,该方法使用归纳逻辑编程以符号提取规则的形式生成提取模型。OntoILPER受益于丰富的示例关系表示,可以缓解上述缺陷。出于一些原因,我们提出的关系方法似乎比统计方法更适合于关系提取。此外,OntoILPER使用领域本体来指导背景知识生成过程,并用于存储提取的关系实例。在来自生物医学领域的三个蛋白质-蛋白质相互作用数据集上评估了诱导提取规则。将OntoILPER提取模型的性能与其他最新的RE系统进行了比较。令人鼓舞的结果似乎证明了所提出解决方案的有效性。
- 关系抽取
- 统计方法(主流)
- 基于特征的方法
- 基于树核的方法
- 基于用于表示实例的命题假设空间
- 缺点:复杂关系的抽取需要更多的上下文信息
- 也就是,无法从解析树中有效的捕获结构信息而不丢失
- 基于逻辑的方法
- OntoILPER(本文)
- 归纳逻辑编程(Inductive Logic Programming)以符号提取规则的形式生成提取模型
- 受益于丰富的实例关系表示,可以缓解上述缺陷
- 更适合关系抽取
- 利用领域本体知道背景知识生成过程
- 专业领域的(生物领域)
- 用于存储提取的关系实例
- OntoILPER(本文)
- 统计方法(主流)
1.Introduction
- IE
- NER:识别并分类
- RE
- 检测:两个实体是否有关系
- 分类:是什么关系
- 大多:二元关系,两个实体之间的关系
- 方法
- 基于监督的统计机器学习方法,例如基于特征和基于树核的方法
- 缺点:复杂关系的抽取需要更多的上下文信息
- 也就是,无法从解析树中有效的捕获结构信息而不丢失
- (不能充分表达)
- 缺点:复杂关系的抽取需要更多的上下文信息
- 关系学习方法—基于逻辑的方法( Inductive Logic Programming [Muggleton, 1991] )
- 关系学习方法:
- [Furnkranz等,2012]。
- 可以从相当复杂的数据结构(例如图形或多个表)生成分类模型
- OntoILPER(本文)
- 引入符号规则的监督学习
- 对象:从文字语料中提取二元关系
- 归纳逻辑编程(Inductive Logic Programming)以符号提取规则的形式生成提取模型
- 受益于丰富的实例关系表示,可以缓解上述缺陷
- 更适合关系抽取
- 利用领域本体知道背景知识生成过程
- 专业领域的(生物领域)
- 用于存储提取的关系实例
- 假设:
- 自动获取的由一阶谓词表示的大量语言知识,
- 结合能够诱导表达性提取规则的基于逻辑的关系学习技术,
- 可以生成高度准确的关系提取模型。
- OntoILPER的假设空间(表达):
- 不仅以表示示例结构方面的关系特征的形式集成了有关节点属性和关系的信息,
- 还可以由学习组件系统地进行探索
- 另一个贡献:使用领域本体来定义要提取的关系以及本体填充population的目的
- 使用领域本体来定义要提取的关系
- 用作背景知识,为表示结构与RE任务相关的实例提供高度表达的关系假设空间
- 本体填充population的目的
- 从文本中提取的实例可以转换为领域本体中相应的本体实例(从而丰富本体)
- 使用领域本体来定义要提取的关系
- 与许多RE相反:
- 允许将有关领域的先验知识集成到提取规则的归纳中
- 当做减少搜索空间的约束
- 允许将有关领域的先验知识集成到提取规则的归纳中
- 思想:
- RE任务应通过推理实例的结果特征来实现
- 句子的 一个丰富的关系表示模型应定义结构特征
- 关系学习方法:
- 基于监督的统计机器学习方法,例如基于特征和基于树核的方法
- 生物领域
- 蛋白质(mention)识别
- PPI(蛋白质之间的相互作用)
信息提取(IE)是文本挖掘中的重要任务,其目标是发现和结构化半结构化或非结构化文档中的信息,而忽略不相关的信息[Jiang,2012]。有两个主要的子任务IE:命名实体识别(NER)和关系提取(RE)。NER旨在从文本中识别命名的实体,并将其分类为一组预定义的实体类型,例如人员,组织,位置等。此类实体类型对于许多应用程序领域最为有用[Turmo等,2006]。
RE由两个相关的子任务组成:检测和表征文本中(命名的)实体之间的语义关系。第一个子任务负责确定两个给定实体之间的关系是否成立,而第二个子任务指的是将关系类型标签分配给特定关系实例的分类问题。关于RE的大多数工作都集中在二元关系上,即两个实体(论元)之间的关系。
NER和RE已广泛应用于从生物医学文献中迅速增长的出版物中提取有用的信息。例如,NER已被用于识别蛋白质名称(提及),在生物信息学研究中它被认为是至关重要的。生物医学领域中另一个普遍解决的子任务是蛋白质-蛋白质相互作用(PPI)[Quian&Zhou,2012],它基于先前NER阶段的结果,旨在寻找句子中的蛋白质对,从而将一种蛋白质描述为调节或约束对方。通常,大多数最新的RE方法,尤其是PPI都是基于监督的统计机器学习方法,例如基于特征和基于树核的方法。此类方法基于用于表示示例的命题假设空间,即它们采用属性值(命题)表示形式,该表示形式具有一些限制,尤其是在提取复杂关系时,通常需要更多有关所涉及实例的上下文信息。换句话说,这种表示不能有效地从解析树中捕获结构信息而不会丢失信息[Choi等,2013]。这种对RE的统计机器学习方法的替代方法是关系学习方法,它能够从相当复杂的数据结构(例如图形或多个表)生成分类模型[Furnkranz等,2012]。
我们的工作假设是,假设自动获取的由一阶谓词表示的大量语言知识,结合能够诱导表达性提取规则的基于逻辑的关系学习技术,可以生成高度准确的关系提取模型。此外,我们争论了两个主要思想:RE任务应通过推理示例的结构特征来执行,而句子的丰富关系表示模型应定义结构特征。
本文介绍了OntoILPER,这是一个基于受监督学习者的RE系统,该系统引入了从文本语料库中提取实体之间的二进制关系的符号规则。OntoILPER受益于丰富的示例关系表示,克服了一些基于表示性较低的假设空间表示示例的当前RE系统的缺点。实际上,OntoILPER假设空间不仅以表示示例结构方面的关系特征的形式集成了有关节点属性和关系的信息,而且还可以由学习组件系统地进行探索。
OntoILPER对RE的另一个重要贡献涉及使用域本体来定义要提取的关系以及本体填充的目的。在前者中,领域本体被用作正式的背景知识,为表示结构与RE任务相关的示例提供了高度表达的关系假设空间。在后者中,从文本中提取的关系实例可以转换为领域本体中的相应本体实例。
最后一项任务也称为本体人口[Petasis等,2011]。与许多RE系统相反,OntoILPER允许将有关领域的先验知识集成到提取规则的归纳中。实际上,在搜索和规则归纳过程中,领域知识都可以有效地用作减少搜索空间的约束。来自生物医学领域(PPI)的三个RE数据集的经验结果表明,由于一些我们在此讨论的原因,与某些统计学习方法相比,OntoILPER是一种有价值的替代RE方法,本文的其余部分结构如下:第2节回顾了基于监督机器学习的最先进的RE系统以及本文所讨论的有关本体和归纳逻辑编程的基本概念。在第3节中,我们将概述OntoILPER功能架构,重点是其主要组件。第4节报告并讨论了对来自生物医学领域的三个数据集进行的比较实验的结果。最后,第5节总结了本文并概述了未来的工作。
2.2. Supervised Machine Learning Approaches to Relation Extraction
- 关系提取的监督学习
- 统计学习方法(常用)
- 关系学习方法
2.1. Statistical Learning Approach
- 统计学习方法(常用)
- 建模为分类模型
- 学习
- 预测
- 方法
- 基于特征
- 基于核
- 建模为分类模型
2.1.1 Feature-based approaches to RE
- 基于特征的方法
- 构建:关系实例–>集中特征的数值向量–>分类器(如SVM)
- 特征:
- 词汇特征
- 与实体相关的信息
- 句法分析树
- 语义信息中衍生的语言特征
- 缺点
- 特征多了难以计算
- 数据量增加了也难以扩展
- 难以有效地捕捉结构化的分析树的特征
- 这个很重要
基于特征的可再生能源构建方法是,首先将关系示例转换为代表几种特征的数值向量,然后采用支持向量机(SVM)[Joachims,1999]等机器学习技术进行检测和分类。将关系示例转换为一组预定义的关系类型。这样的方法通过利用从词汇知识,与实体相关的信息,句法分析树和语义信息中衍生的大量语言特征来获得最新的性能结果[Kambhatla,2004] [Zhou等,2005] [Giuliano等,2006] [Li等,2015] [Muzaffar等,2015]。数千个特征的利用在计算上是繁重的,并且不能随着数据量的增加而很好地扩展。此外,基于特征的方法难以有效地捕获结构化的分析树信息,这对于RE中进一步提高性能至关重要[Zhou et al。,2005]。
2.1.2 Kernel-based approaches to RE
- 基于kernel的RE
- 使用:核函数
- 内积
- 相似度
- RE中常用的核函数
- 基于树的核
- 树核是基于包含两个实体的通用子结构
- 希望可以计算树的相似度来隐式地利用结构化特征
- [Culotta and Sorensen,2004] [Airola et al。,2008] [Quian] &Zhou,2012] [Ma et al。,2015]
- 树:解析树–(语法树?可以获得语法结构化信息
- 性能好
- 缺点
- 树内核计算中的子树没有上下文[Zhou et al。,2007]
- 如何选择合适的树的跨度[Zhang et al。,2006]
- 复合内核:
- 多种内核的复合函数
- [Miwa et al., 2010] [Tikk et al., 2010]
- 可以同时有树核和基于特征的方法的优点
- Choi et al. (2009)
- 词法+上下文特征的复合内核
- 可以将实体类型信息与结构(语法)特征组合为单个的内核函数
- 缺点:仅根据单个节点的句子成分信息进行比较[Jiang,2012]
- 基于树的核
- 使用:核函数
基于内核的RE方法基于内核函数或简单的内核,这些函数定义了在某些基础向量空间中表示的两个观察到的实例的内部积。内核函数通常被视为两个输入向量之间相似度的度量,这些输入向量表示使用原始属性集的转换空间中的示例。在RE [Jiang,2012]中研究了以下两种主要类型的内核:
基于树的内核基于包含两个实体的通用子结构,以便通过直接计算两棵树之间的相似性来隐式地利用结构化特征,如[Culotta and Sorensen,2004] [Airola et al。,2008] [Quian] &Zhou,2012] [Ma et al。,2015]。基于树的内核通过处理解析树来探索各种结构化的特征空间,以便从示例中捕获语法结构化的信息。树形内核可以实现与基于特征的内核相当甚至更好的性能,这主要是由于树形内核在捕获某种程度上的关系实例的结构信息方面的独特优势。但是,在RE中应用基于树的内核存在两个主要问题。第一个是树内核计算中的子树没有上下文。因此,他们不考虑包含两个参数实体的目标子树之外的上下文信息[Zhou et al。,2007]。第二个问题涉及在RE中选择合适的树跨度,即与关联最短路径所包围的子树的树跨度链接,该最短路径将解析树中的两个相关实体链接在一起[Zhang et al。,2006]。
复合内核由不同内核的组合产生[Miwa等,2010] [Tikk等,2010]。复合内核主要在难以将各种功能都包含到单个内核中时使用,即它们可以集成基于特征和基于树内核的优点。Zhao和Grishman(2005)定义了几个基于特征的复合内核,以集成各种特征。在[Zhang et al。 [2006],作者提出了一种将卷积解析树内核与实体特征内核结合在一起的复合内核。最近,Choi等。 (2009)引入了一个复合内核,该内核通过扩展现有的复合内核来集成各种词法和上下文特征。他们用一系列词汇特征扩展了语法特征,以实现更准确的提取结果。先前的研究[Choi等,2009] [Jiang,2012]显示,复合内核比单个语法树内核具有更好的性能。这意味着实体类型信息可以与结构(语法)特征组合为单个内核函数。复合内核的缺点在于,仅根据每个节点的句子成分信息进行比较[Jiang,2012]。
2.2. Relational Learning Approach
- 关系学习方法
- 从复杂的数据结构(图形或多个表)生成分类模型[Fürnkranz等,2012]
- 常用方法:归纳逻辑变成ILP
- 统一表示语言:一阶谓词
- 表示:实例,背景知识和假设
- 可用的专家只是也可用作背景知识–>提升假设空间的表达能力
- 组件
- ILP
- 本体
称为关系学习的监督学习方法从复杂的数据结构(图形或多个表)生成分类模型[Fürnkranz等,2012]。在这种方法中,最广泛使用的学习技术之一是归纳逻辑编程(ILP),它采用一阶谓词作为示例,背景知识(BK)和假设的统一表示语言[Lavrac and Dzeroski,1994]。此外,在ILP学习期间,可用的专家知识可以用作进一步的BK,从而增加了假设空间的表达能力。在本节的其余部分,我们首先介绍本工作中讨论的基于ILP的RE的系统的两个主要组件:ILP和本体。然后,介绍了一些当前基于ILP的RE系统,然后对其进行了定性比较。
2.2.1. Inductive Logic Programming
- ILP
- 交叉点
- 归纳学习
- 从观察推论假设
- 逻辑变成:
- 表示形式和语义
- 归纳学习
- 目标:
- 在基于一些背景知识及子句(无变量的基本子句)表示的正例E+、负例E---->学习某个目标谓词的描述(或假设H)
- 归纳假设H:H ← h1 ∧ ··· ∧ hk
- hi:非冗余子句,包含所有正例,无负例
- 优势:
- 归纳模型的可读性
- 可以从结构或关系数据中学习
- 可充分利用背景知识
- 表达力强(与传统属性值语言相比,一阶谓词逻辑可以表示更复杂的概念)
- 交叉点
从理论上讲,ILP解决在归纳学习与逻辑编程的交叉点。从归纳式机器学习开始,ILP继承了从观察推论假设的技术发展。从逻辑编程中,它继承了其表示形式和语义。作为一种有监督的学习技术,ILP旨在基于一些BK以及两组通常由子句表示的正例(E +)和负例(E-)来学习某个目标谓词的有意描述(或假设H)。没有变量,即基本子句。归纳假设H表示为H ← h1 ∧ ··· ∧ hk形式的子句H的有限连集,其中每个hi是一个非冗余子句,它包含所有正例,没有负例[Muggleton (1995)。ILP成功的原因之一是归纳模型的可读性。此外,它具有从结构或关系数据中学习的能力,因此可以利用以BK表示的领域知识来获利。另一个有趣的优点是,与传统的属性值(零阶)语言相比,它可以使用一阶逻辑来表示更复杂的概念[Furnkranz等,2012]。
2.2.2 Ontologies
- 本体
- 概念化的明确规范
- 形式化知识的表示,可以由计算机处理大量任务,包括通信、互操作性、智能主体的通信和推理
- 特定领域或开放领域中的概念、属性、关系、约束、公理和实例的定义。
- 允许领域知识的重用,使领域假设更加明确。
- 可在信息抽取中使用
- 有多种用途
在最常被引用的本体定义之一中,Gruber断言本体论是概念化的明确规范[Gruber,1993]。本体是形式化知识的表示,可以由计算机处理大量任务,包括通信和互操作性(使用本体作为通用词汇),智能主体的通信和推理。用实际的术语来说,本体涵盖了在特定领域或整个语境中的概念,属性,关系,约束,公理和实例的定义。另外,它们允许域知识的重用,使域假设变得明确。几个研究人员已经证明了在IE过程中使用本体的兴趣。本体已被用于多种目的:在给定的领域中捕获知识[Nedellec&Nazarenko,2005],处理信息内容[Karkalesis等,2011],以及推理[Wimalasuriya&Dou,2009],仅举几例。
2.2.3 ILP-based systems for RE
- ILP-based systems for RE
- Kim et al. (2007)
- 提出了一个基于Aleph ILP系统的RE系统。
- 文本预处理:
- 它使用基于内存的浅解析器(MBSP)提供的NER,词性(POS),分词分析和语法功能分配(主题,对象,时间等)进行文本预处理。
- 数据集:使用蛋白质家族数据库PRINTS数据库中的一组句子来评估该系统。
- 评估任务:涉及提取蛋白质与其他生物实体(包括疾病,功能和结构)之间的关系实例。
- 结果:他们报告的结果达到了75%的精度,但对三个评估数据集中的两个数据集,召回率均不到30%。
- Horvath et al. (2009)
- 认为:依赖树是由表示图边缘的二元谓词组成的关系结构。
- 文本预处理组件:
- 同时基于GATE框架[Cunnighan等,2002]和斯坦福解析器[De Marneffe和Manning,2008]。
- 语义资源:WordNet [Fellbaum,1998],可从文本中找到的两个给定实体获得上位关系。
- 假设:作者假定一元谓词集的偏序由实体之间的层次结构定义,
- 一元谓词Person(X)比Physicist(X)谓词更笼统。
- 实现NRE:
- 生成规则:应用最小一般化(LGG)[Plotkin,1971]技术,他们生成了一组规则,表示为满足某些一致性标准的非递归Horn子句
- 所有规则必须覆盖最少数量的正例。
- 属性向量表示:所生成的规则用于为每个示例构造属性的二进制向量。
- 分类:将所得向量用于训练SVM分类器。
- 生成规则:应用最小一般化(LGG)[Plotkin,1971]技术,他们生成了一组规则,表示为满足某些一致性标准的非递归Horn子句
- Smole et al. (2012)
- 提出了一个基于ILP的系统,
- 任务:该系统学习用于从斯洛文尼亚语言中的地理实体定义中提取关系的规则。
- 作为组件被使用:他们的系统被用作空间数据推荐服务的组成部分。
- 提取五个关系:作者着重于提取在空间实体的1,308个定义中出现的五个最频繁的关系(“ isA”,“ isLocated”,“ hasPurpose”,“ isResultOf”和“ hasParts”)。
- 语言处理:
- 他们的自然语言处理(NLP)组件基于Amebis Slovene POS标记器。
- 分块检测:作者在斯洛文尼亚实现了一种用于分块检测的工具,该工具将Amebis已经标记的文本作为输入。
- 学习组件:该系统中的学习组件基于Progol ILP系统[Muggleton,1995]。
- Kordjamshidi et al. (2012)
- 任务: Spatial Role Labeling (SpRL)[Kordjamshidi等。等,2011]。
- 从文本中提取通用空间关系。
- (i)识别描述空间概念的词。
- (ii)这些词在空间设置中所起作用的分类
- 关系学习框架:kLog [Frasconi et al., 2012]
- 使用图形内核的基于内核
- kLog可以通过逻辑程序的形式从背景知识(BK)中获利
- 语言处理
- the Charniak Parser [Charniak and Johnson, 2005]:POS和依赖项解析
- 任务: Spatial Role Labeling (SpRL)[Kordjamshidi等。等,2011]。
- Alvis[Nédellec et al. (2008)]
- 任务:这是一个提取生物实体之间关系的RE系统。
- 语言处理:
- Alvis提供了基于Ogmios NLP框架的语义分析[Nazarenko et al。,2006],
- 该框架执行多个NLP子任务,包括生物实体的NER,POS标签,句法解析以及对生物域本体的语义映射。
- 学习组件:Alvis是基于LP-Propal([Alphonse and Rouveirol,2000]中提出的基于ILP的学习组件)。
- 输入:带注释的语料库,以引入适合标记域本体中发现的语义关系的提取规则。
- 依靠:术语词典来识别文本中的生物医学实体实例。
- 更新困难(不够活跃)
- Kim et al. (2007)
2.2.4 Qualitative Comparison of ILP-based RE systems
表格1根据以下维度总结了上面介绍的基于ILP的RE系统的特征:(i)执行IE任务,无论是NER还是RE,(ii)在文本预处理中执行的NLP子任务,(iii)使用的NLP工具,(iv)使用的语言或语义资源,以及(v)ILP学习组件,(vi)评估数据集和(vii)本体的使用
来源:CSDN
作者:叶落叶子
链接:https://blog.csdn.net/weixin_40485502/article/details/104731842