实体关系抽取的现状与未来

ε祈祈猫儿з 提交于 2020-01-09 01:06:38

Abstract

来到 2019 年的今天,深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言,要做到 精细深度的语义理解,单纯依靠 数据标注算力投入无法解决本质问题。如果没有先验知识的支持,「中国的乒乓球谁都打不过」与「中国的足球谁都打不过」,在计算机看来语义上并没有巨大差异,而实际上两句中的「打不过」意思正好相反。因此,融入知识来进行知识指导的自然语言处理,是通向精细而深度的语言理解的必由之路。然而,这些知识又从哪里来呢?这就涉及到人工智能的一个关键研究问题——知识获取

实体关系抽取是一个经典任务,在过去的 20 多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。

语法分析和语义分析

语法分析在词法分析输出单词流基础上,根据语言的语法规则注意分析这些单词流怎么组成句子,并说明句子是怎样组成程序,并能进行语法检查,而语义分析是根据语法结构分析其含义。

能理解成语法分析是从词中找出句子,而语义分析是在句子的基础上进行理解,并断句。

语法分析的任务是判断源程序在结构上是否正确,是上下文无关的;
语义分析的任务是判断结构正确的源程序所表达的意义(这样说可能不太准确)是否正确,是上下文有关的。

  • 语法分析:检查句子的“主谓宾”结构
  • 语义分析:检查你说话的意思。 参考这里

一种语言是合法句子的集合。什么样的句子是合法的呢?可以从两方面来判断:语法和语。语法是和文法结构有关,然而语义是和按照这个结构所组合的单词符号的意义有关。合理的语法结构并不表明语义是合法的。例如我们常说:我上大学,这个句子是符合语法规则的,也符合语义规则。但是大学上我,虽然符合语法规则,但没有什么意义,所以说是不符合语义的。参考这里

语法 包括 词法 和 句法。

  • 词法主要研究词的内部结构,包括曲折变化和构词法。也有人说,morphology(形态学)又称词法。
  • 句法研究句子结构成分的相关关系,以及它们组成句子的规则。

SemEval-2010 Task-8

SemEval-2010 Task-8的任务设定为,对预先定义好的关系类别标注大量的训练和测试样例,样例都是相对简单的短句,而且每种关系的样例分布也比较均匀。然而,实际应用中往往面临很多挑战:

  • 数据规模问题:人工精准地标注句子级别的数据代价十分高昂,需要耗费大量的时间和人力。在实际场景中,面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子,依靠人工标注训练数据几乎是不可能完成的任务。
  • 学习能力问题:在实际情况下,实体间关系和实体对的出现频率往往服从长尾分布,存在大量的样例较少的关系或实体对。神经网络模型的效果需要依赖大规模标注数据来保证,存在”举十反一“的问题。如何提高深度模型的学习能力,实现”举一反三“,是关系抽取需要解决的问题。
  • 复杂语境问题。现有模型主要从单个句子中抽取实体间关系,要求句子必须同时包含两个实体。实际上,大量的实体间关系往往表现在一篇文档的多个句子中,甚至在多个文档中。如何在更复杂的语境下进行关系抽取,也是关系抽取面临的问题。
  • 开放关系问题。现有任务设定一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题。这样的话,文本中蕴含的实体间的新型关系无法被有效获取。如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个”开放“问题。
    所以说,SemEval-2010 Task-8这样的理想设定与实际场景存在巨大鸿沟,仅依靠神经网络提取单句语义特征,难以应对关系抽取的各种复杂需求和挑战。我们亟需探索更新颖的关系抽取框架,获取更大规模的训练数据,具备更高效的学习能力,善于理解复杂的文档级语境信息,并能方便地扩展至开放关系抽取。

我们认为,这四个方面构成了实体关系抽取需要进一步探索的主要方向。接下来,我们分别介绍这四个方面的发展现状和挑战,以及我们的一些思考和努力。

更大规模的训练数据

神经网络关系抽取需要大量的训练数据,但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型,工作 [16] 提出了远程监督(Distant Supervision)的思想,将纯文本与现有知识图谱进行对齐,能够自动标注大规模训练数据。

虽然远程监督思想非常简单也存在很多问题,不过它为更多收集训练数据开启了新的纪元。受到这个思路的启发,很多学者积极考虑如何尽可能排除远程监督数据中的噪音标注的干扰。从2015年开始,基于远程监督与降噪机制的神经关系抽取模型得到了长足的发展,工作 [17] 引入了多实例学习方法,利用包含同一实体对的所有实例来共同预测实体间关系。我们课题组林衍凯等人工作 [19] 提出句子级别注意力机制,对不同的实例赋予不同的权重,用以降低噪音实例造成的影响。工作 [20] 引入对抗训练来提升模型对噪音数据的抵抗能力。工作 [21] 则构建了一套强化学习机制来筛除噪音数据,并利用剩余的数据来训练模型。

总结来说,已有对远程监督的降噪方法可以兼顾了关系抽取的鲁棒性与有效性,也具有较强的可操作性和实用性。不过,使用已有知识图谱对齐文本来获取数据训练关系抽取模型,再利用该模型来抽取知识加入知识图谱,本身就有一种鸡生蛋与蛋生鸡的味道。不完善的知识图谱对齐所得到的文本训练数据也将是不完善的,对那些长尾知识而言,仍难以通过这种远程监督机制来得到训练实例。如何提出更有效的机制来高效获取高质量、高覆盖、高平衡的训练数据,仍然是一个值得深入思考的问题

Reference

thunlp

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!