目录
前言
本文介绍了有关知识图谱领域相关的基本知识的定义、意义,以及研究的内容与挑战。
2.1 知识表示和建模
·Sowa J F. Knowledge representation: logical, philosophical, and computational foundations. 1999.
·Noy N F, McGuinness D L. Ontology Development 101: A Guide to Creating Your First Ontology. another version(找不到)
知识表示
知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。
哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。
上世纪90年代,MIT AI 实验室的R. Davis定义了知识表示的五大用途或特点:
(1)客观事物的机器标示(A KR is a Surrogate),即知识表示首先需要定义客观实体的机器指代或指称。
(2)一组本体约定和概念模型(A KR is a Set of Ontological Commitments),即知识表示还需要定义用于描述客观事物的概念和类别体系。
(3)支持推理的表示基础(A KR is a Theory of Intelligent Reasoning),即知识表示还需要提供机器推理的模型与方法。
(4)用于高效计算的数据结构(A KR is a medium for Efficient Computation),即知识表示也是一种用于高效计算的数据结构。
(5)人可理解的机器语言(A KR is a Medium of Human Expression),即知识表示还必须接近于人认知,是人可理解的机器语言。
2.2知识表示学习
知识表示是知识获取与应用的基础,因此知识表示学习问题,是贯穿知识库的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表实体间的关系。然而,基于网络形式的知识表示面临诸多挑战性难题,主要包括如下两个方面:
(1)计算效率问题。基于网络的知识表示形式中,每个实体均用不同的节点表示。当利用知识库计算实体间的语义或推理关系时,往往需要人们设计专门的图算法来实现,存在可移植性差的问题。更重要的,基于图的算法计算复杂度高,可扩展性差,当知识库规模达到一定规模时,就很难较好地满足实时计算的需求。
(2)数据稀疏问题。与其他类型的大规模数据类似,大规模知识库也遵守长尾分布,在长尾部分的实体和关系上,面临严重的数据稀疏问题。例如,对于长尾部分的罕见实体,由于只有极少的知识或路径涉及它们,对这些实体的语义或推理关系的计算往往准确率极低。
随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量,实现了对实体和关系的分布式表示,可以高效地对实体和关系进行计算,、缓解知识稀疏、有助于实现知识融合,已经成为知识图谱语义链接预测和知识补全的重要方法。由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,因此对于知识库的构建、推理和应用具有重要意义,值得广受关注、深入研究。
(1)显著提升计算效率。知识库的三元组表示实际就是基于独热表示的。如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高,可扩展性差。而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率。
(2)有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要体现在两个方面。一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似程度。另一方面,将大量对象投影到统一空间的过程,能够将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性。
(3)实现异质信息融合。不同来源的异质信息需要融合为整体,才能得到有效应用。例如,人们构造了大量知识库,这些知识库的构建规范和信息来源均有不同,例如著名的世界知识库有DBPedia、YAGO、Freebase等。大量实体和关系在不同知识库中的名称不同。如何实现多知识库的有机融合,对知识库应用具有重要意义。通过设计合理的表示学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识库的信息融合。此外,当我们在信息检索或自然语言处理中应用知识库时,往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联。由于这些对象的异质性,在往常是棘手问题。而知识表示学习亦能为此提供统一表示空间,轻而易举实现异质对象之间的语义关联计算。
2.3实体识别与链接
实体是客观世界的事物,是构成知识图谱的基本单位(这里实体指个体或者实例)。实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。实体识别是识别文本中指定类别的实体。实体链接是识别出文本中提及实体的词或者短语(称为实体提及),并与知识库中对应实体进行链接。
实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。实体识别技术可以检测文本中的新实体,并将其加入到现有知识库中。实体链接技术通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。
命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别的任务[Chinchor & Robinson, 1997]。常用实体类别包括人名、地名、机构名、日期等。实体链接主要解决实体名的歧义性和多样性问题,是指将文本中实体名指向其所代表的真实世界实体的任务,也通常被称为实体消歧[Ji et al., 2010]。例如,给一句话“苹果发布了最新产品iPhone X”,实体链接系统需要将文本中的“苹果”与其真实世界所指的“苹果公司”进行对应。
实体识别与链接是海量文本分析的核心技术,为解决信息过载提供了有效手段。一方面,互联网文本数据的爆炸式增长带来了严重的“信息过载”问题。互联网数据中海量冗余信息、虚假信息和噪音信息导致查找和浏览有用信息变得愈发困难。命名实体识别技术通过将文本结构化为以实体为中心的语义表示,为分析非结构化文本提供了核心技术手段,是实现大数据资源化、知识化和普适化的核心技术,已被广泛应用于舆情监控、网络搜索、智能问答等多个重要领域。
作为知识图谱的基本单元,实体识别与链接是知识图谱构建和补全的核心技术。人工智能的长久核心目标之一是构建可支撑类人推理和自然语言理解的大规模常识知识库。然而,由于人类知识的复杂性、开放性、多样性和巨大的规模,当前依旧不存在满足上述需求的大规模知识库。实体识别技术检测文本中的新实体,并将其加入到现有知识库中。实体链接技术通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。
实体识别。命名实体识别的目的是识别文本中指定类别的实体,主要包括人名、地名、机构名、专有名词等的任务。例如,识别“2016年6月20日,骑士队在奥克兰击败勇士队获得NBA冠军”这句中的地名(奥克兰)、时间(2016年6月20日)、球队(骑士队、勇士队)和机构(NBA)。命名实体识别系统通常包含两个部分:实体边界识别和实体分类,其中实体边界识别判断一个字符串是否组成一个完整实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。命名实体识别是一项极具实用价值的技术,目前中英文上通用命名实体识别(人名、地名、机构名)的F1值都能达到90%以上。命名实体识别的主要难点在于表达不规律、且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)。
实体链接。实体链接的目的是将实体提及与知识库中对应实体进行链接。给定一段文本(如“在旧金山的发布会上,苹果为开发者推出新编程语言Swift”),一个实体链接系统包括如下研究内容:
1. 识别文档中的目标提及(mention)。所谓提及,就是我们想要链接的对象,例如上述例子文本中的提及{“旧金山”,“苹果”,“Swift”};
2. 针对每一个提及,识别该提及在知识图谱中可能指向的候选目标实体。例如,上述文本中的提及“苹果”可能指向的目标实体包括 {苹果(水果),苹果公司,苹果(电影),苹果(银行), …};
3. 基于提及的上下文等信息对目标实体进行排序。
例如,系统需要根据“苹果”的上下文词语{发布会,编程语言,开发者,…}识别出该段文本中“苹果”指的是苹果公司,而不是苹果(水果)或者苹果(电影);
4. 空提及检测与聚类。考虑到知识的规模和更新速度,知识库往往不能覆盖所有真实世界实体。为了解决上述问题,需要识别出知识库尚未包含其目标实体的提及,并将这些提及按其指向的真实世界实体进行聚类。例如,由于现有知识库没有包含上文中提及“Swift”指向的目标实体Swift(编程语言),实体链接系统需要将“Swift”的目标实体设置为空实体“NIL”,表示该提及在知识库中没有链接对象。
实体链接是一项极具实用性的技术,目前面向Wikipedia知识库的实体链接准确率可以达到90%以上,F1值在0.85以上。目前实体链接技术已在实际应用中得到广泛使用。
概况说来,上述实体分析任务主要面临以下几个关键科学问题:
1. 实体名的歧义性和多样性。歧义性和多样性是自然语言的固有属性,也是实体识别和链接技术要解决的根本问题。在实体识别中,实体可以有各种各样不同的表达,导致除了少数规范性实体(如电话号码,email地址)之外,大部分实体都无法使用名字规则来捕捉其规律,而是需要构建统计上下文模型来进行识别。在实体链接中,实体的歧义导致一个实体名有许多可链接的对象,这使得如何挖掘更多的消歧证据、设计更高性能的消歧算法、构建覆盖度更高的实体引用表仍然是实体链接系统的核心问题。
2. 资源缺乏(Low Resource)问题。目前绝大部分的实体分析算法都依赖于有监督模型,需要大量的训练语料来达到实用性能。然而,考虑到标注语料的成本,在绝大部分情况下都不可能获得足够的训练语料来处理不同的领域、面向不同风格的文本(规范、非规范)、不同的语言(中文、英文、一带一路小语种等)等多种多样的情况。无需大量训练语料的无监督/半监督技术,资源自动构建技术,以及迁移学习等技术是解决上述问题的核心研究问题。
3. 实体的开放性问题。实体具有复杂性和开放性的特点。实体的复杂性指的是实体的类型多种多样,同时类型之间具有复杂的层次结构。实体的开放性指实体并不是一个封闭的集合,而是随着时间增加、演化和失效。实体的开放性和复杂性给实体分析带来了巨大的挑战:开放性使得现有有监督方法无法适应开放知识的抽取;实体的巨大规模使得无法使用枚举或者人工编写的方式来进行处理,同时随着时间变化现有模型的性能会下降。
2.4实体关系学习
实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。实体关系抽取分为预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,比如知识图谱中定义好的关系类别,如上下位关系、国家—首都关系等;开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。实体关系识别是知识图谱自动构建和自然语言理解的基础。
关系抽取系统处理各种非结构化/半结构化的文本输入(如新闻网页、商品页面、微博、论坛页面等),使用多种技术(如规则方法、统计方法、知识挖掘方法),识别和发现各种预定义类别和开放类别的关系。根据关系类别是否预定义,目前关系抽取的核心研究内容可以划分为限定域关系抽取和开放域关系抽取。以下分别介绍具体的研究内容。
限定域关系抽取。限定域关系抽取是指系统所抽取的关系类别是预先定义好的,比如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别一般是人工定义或者从现有知识图谱中自动获取。由于关系类别已经预先定义,所以一般可以人工或者基于启发式地规则自动构建标注语料。因此限定域关系抽取中的主要研究内容是如何利用有监督或弱监督的方法抽取预定义的实体关系知识。在有监督的方法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特征上。在弱监督的方法中主要的研究内容集中在如何降低自动生成语料中的噪声。
开放域关系抽取。开放域关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。因此开放域关系抽取也称为开放式关系发现。由于没有事先定义关系的类别,因此开放域关系发现中利用关系指示词代表关系的类型。主要的研究内容是如何利用无监督的方法自动的抽取关系三元组。
关系抽取目前主要面临如下三个挑战:
- 自然语言表达的多样性
关系抽取的核心是将自然语言表达的关系知识映射到关系三元组上。然而,自然语言表达具有多样性和隐含性,导致关系抽取任务极具挑战性。自然语言表达的多样性指的是同一种关系可以有多种表达方式,例如“总部位置”这个语义关系可以用“X的总部位于Y”,“X总部坐落于Y”,“作为X的总部所在地,Y…”等等不同的文本表达方式。自然语言表达的多样性是关系抽取的一大挑战。
- 关系表达的隐含性
关系表达的隐含性是指关系有时候在文本中找不到任何明确的标识,关系隐含在文本中。例如:蒂姆·库克与中国移动董事长奚国华会面商谈“合作事宜”,透露出了他将带领苹果公司进一步开拓中国市场的讯号。在这一段文本中,并没有直接给出蒂姆·库克和苹果公司的关系,但是从“带领苹果公司”的表达,我们可以推断出蒂姆·库克是苹果公司的首席执行官(CEO)。关系表达的隐含性是关系抽取的一大挑战。
- 实体关系的复杂性
关系抽取的目标是抽取实体之间的语义关系,然而,真实世界中同一对实体之间可能有多个关系,而且有的关系可以同时存在,而有的关系是具有时间特性的。比如:中国和北京的关系有多个,北京坐落于中国,北京是中国的首都,北京是中国的政治中心,北京是中国的文化中心。这些关系是可以同时存在的。但是如果两个人本来是夫妻关系,后来离婚了,他们就不是夫妻关系了,是前妻或者前夫的关系,这个类关系具有时空性,不能单独存在,实体关系的复杂性是关系抽取的又一挑战。
2.5事件知识学习
事件(Event)的概念起源于认知科学,广泛应用于哲学、语言学、计算机等领域[Quine, 1985;Trabasso, 1985;Zwaan, 1999;Chemero, 2000;Zacks, 2001;Glasbey, 2004;Fernando, 2007]。遗憾的是,目前学术界对此尚且没有公认的定义,针对不同领域的不同应用,不同学者对事件有不同的描述。在计算机科学的范畴内最常用的事件定义有如下两种:
- 第一种源自信息抽取领域,最具国际影响力的自动内容抽取评测会议(Automatic Content Extraction, ACE)对其定义为:事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变[Doddington et.al., 2004]。
- 第二种源自信息检索领域,事件被认为是细化的用于检索的主题。美国国防高级计划研究委员会主办的话题检测与追踪(Topic Detection and Tracking, TDT)评测指出:事件是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情[Allan et.al., 1998a]。
事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应用,事件有不同的描述范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。
知识图谱中的事件知识隐含互联网资源中,包括已有的结构化的语义知识、数据库的结构化信息、半结构化的信息资源以及非结构化资源,不同性质的资源有不同的知识获取方法。
事件知识学习是一项综合研究,需要比较深入的自然语言处理方法和技术作为支撑。相对于其他抽取和识别任务(如实体识别、关系抽取),事件识别和抽取更加复杂且富有挑战性,其难点主要表现在以下几个方面:
认知层面:事件具有复杂的内部结构。事件抽取不仅要识别出事件触发词和事件类别,还要识别出事件所涉及的所有元素并判断其在事件中扮演的角色。相较于实体和关系,事件涉及更多的实体和值,而且事件中各个元素间具有复杂关系和结构。因此需要对事件描述文本更深层次的理解。
语言层面:事件的表述是灵活的、具有歧义的。同一事件会有不同的描述和报道,例如“离开”既可以触发移动事件,也可以触发离职事件。同一事件的元素也可能会出现在多个句子、段落或者篇章中,一个句子或者一篇文章会描述多个不同但是相关或者不相关的事件。因此自然语言的灵活多变和歧义性对面向非结构化文本的事件抽取提出了很大的挑战。
方法层面:事件抽取会遇到错误累积的问题。事件抽取一般依赖于词法、句法分析等基本的自然语言处理工具,但实际中许多自然语言处理工具性能并不高,低性能的工具引入的错误会降低事件抽取系统的性能。
语料层面:标注语料规模小、数据稀疏。事件结构的复杂性和表述方式的歧义性导致人工标注事件的成本高、一致性差、耗时费力。因此,现有事件抽取相关数据集普遍规模较小,数据稀疏问题严重,对抽取的性能造成了很大的影响。
对于事件检测和追踪,虽然着眼点比事件识别和抽取要稍显宏观,但二者在认知、语言、方法和语料层面的挑战是高度统一的。
2.6 知识图谱查询和推理计算
知识存储和查询
知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。因为知识图谱的结构是复杂的图结构,给知识图谱的存储和查询带来了挑战。当前目前知识图谱多以三元存在的RDF形式进行存储管理,对知识图谱的查询支持SPARQL查询。
RDF 是用于描述现实中资源的W3C 标准。它被设计为提供一种描述信息的通用方法,这样就可以被计算机应用程序读取并理解。现实中任何实体都可以表示成RDF 模型中的资源,比如图书的标题、作者、修改日期、内容以及版权信息。资源以唯一的URI(统一资源标识——Uniform Resource Identifiers,通常使用的URL 是它的一个子集)来表示,不同的资源拥有不同的URI。这些资源可以用来作为知识图谱中对客观世界的概念、实体和事件的抽象。
知识推理
随着知识图谱研究的深入,研究人员发现知识图谱在各种应用中存在以下质量问题:
第一个问题是知识图谱的不完备性,即知识图谱中的关系缺失或者属性缺失,例如人物的职业信息缺失。这个问题可能是因为构建知识图谱的数据本身就是不完备的,也可能是信息抽取算法无法识别到一些关系或者抽取到属性值。
第二个问题是知识图谱中存在错误的关系,如人物知识图谱中可能包含错误的人物关系。这个问题可能是因为构建知识图谱的数据有错误,也可能是因为知识图谱构建时采用了统计方法,而统计方法很难保证学习的知识是绝对正确的。
这两个问题对于智能问答等应用来说有较大影响,对于问答来说,前者会导致提出的问题没有答案, 而后者会导致系统给出的答案是错误的。为了解决这两个问题,就需要对知识图谱的推理进行研究。
知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。
知识图谱之所以被认为是实现人工智能的一个重要研究方向,是因为知识图谱上的推理使之能够支撑人工智能的很多应用,而这也是知识图谱区别于传统关系数据模型的关键所在。如上所述,基于符号的推理包括基于本体的推理和基于规则的推理两种,前者包括概念的定义和分类,以及概念中实例的推断等推理,后者考虑的是将规则应用于图谱,实现图谱上新的关系推断以及基于图谱的决策支持。基于符号的推理被广泛用于生物医学中术语定义和概念分类、电商数据的不一致检测和查询重写以及智能问答中的知识扩充等。基于统计的推理包括模式归纳和实体关系学习,前者考虑的是从知识图谱中挖掘概念的关系,后者考虑的是通过统计方法推断出两个实体之间的关系。模式归纳用于构建知识图谱的模式知识,提供概念之间的上下文关系和关系的定义域与值域,模式知识可以用于符号逻辑推理,也可以用于知识图谱的构建。实体关系学习对于知识图谱的补全有很大作用,可以用于智能问答等知识图谱的应用。
知识图谱的推理首先需要考虑的是知识如何表达的问题,即知识图谱的知识表示,这里有基于图结构的表示以及相应的逻辑基础,还有基于张量的表示。其次需要考虑的是逻辑推理算法以及优化方法,实现高效的逻辑推理机。再次,需要考虑基于统计的知识图谱推理算法,重点介绍基于表示学习的方法和基于图特征的方法。最后介绍如何从知识图谱中通过统计方法来学习本体的方法。
知识图谱对规模的扩展需求使得知识表示方法逐渐发生了四个方面的变化:(1)从强逻辑表达转化为轻语义表达;(2)从较为注重TBox概念型知识转化为更加注重ABox事实型知识;(3)从以推理为主要应用目标转化为综合搜索、问答、推理、分析等多方面的应用目标;(4)从以离散的符号逻辑表示向以连续的向量空间表示方向发展。
参考文献
知识图谱发展报告(2018)-中国中文信息协会
来源:CSDN
作者:与子同志
链接:https://blog.csdn.net/qq_37108780/article/details/104732111