知识体系和知识融合
知识融合通过框架匹配和实例对齐,把分散的知识资源联合起来,可以极大的增加知识图谱的覆盖领域和共享程度。
知识体系构建
知识体系三个方面核心内容:
- 对概念的分类
- 概念属性的描述
- 概念之间相互关系
知识体系的基本形态: - 词汇
- 概念
- 分类关系
- 非分类关系
- 公理
- 人工构建方法
人工构建知识体系的过程可以分为6个阶段:
- 确定领域及任务
知识图谱作为人工智能应用的基础设施,其构建过程不能不了解具体的应用任务,也不能抛开领域建立一个高大全的、无法被广泛使用的产品。
与具体的领域密切相关
限定了知识体系应该包含的知识范围,领域内还是可以构建出各种各样的知识体系。
想要构建更为合适的体系,需要回答:- 我们为什么要使用这个知识体系
- 这种知识体系呢个构帮助回答哪些类型的问题
- 谁会使用并维护这个知识体系
- 体系复用
知识体系具有很强的抽象性和概括性。从零开始构建不仅成本高昂,而且质量难以保证。- 领域词典
专家编撰的领域内的词典,对构建限定领域的知识体系具有重要的参考意义。 - 语言学资源
语言学资源可以帮助知识体系的构建 - 开源知识图谱
- 网络百科
- 领域词典
- 罗列要素
根据领域,罗列期望在知识图谱中出现的要素列表,主要包括概念、属性以及关系。 - 确定分类体系
确定了相关要素后,需要将其中表示概念的要素组织成层级结构的分类体系。- 自顶向下
从最抽象的概念开始,逐层添加更为具体的概念 - 自底向上
从具体的概念开始,逐层开始抽象
- 自顶向下
- 定义属性及关系
为每个类别定义属性及关系。
属性是描述概念的内在特征,
关系是刻画不同概念之间的关系。 - 定义约束
不同的属性和关系具有不同的定义域和值域。
数据报障数据的一致性,避免异常值的出现。
- 自动构建方法
- 基于非结构化数据的知识体系学习
也叫基于文本的本体学习。首先利用自然语言处理工具对文本进行分词、句法分析、命名实体识别等预处理操作,然后利用模板匹配、统计学习的方法从文本抽取重要信息,主要包括领域概念、实例以及概念之间的关系。- 领域概念抽取
从文本数据中抽取出构建知识体系所需的关键元素,包括实体类型名,属性名,关系名,步骤如下:- 抽取候选术语
利用nlp抽取文本中的字符串,尽可能多的把真正的术语包括进来,对质量没有严格的要求,但是尽量保证抽取术语的高覆盖度。 - 术语过滤
领域术语与破铜词汇在语料上往往具有不同的统计特征,例如普通词汇在领域内外具有相似的分布,但是领域词汇有显著的区别。通过互信息(MI),词频逆文档概率(TF-IDF),术语相关频率(RTF)等过滤。 - 术语合并
把相同概念的术语合并,聚合到一起,转换的过程就是识别同义词的过程。
1.基于词典
词汇就是wordnet等
2.基于统计的方法
基于统计就是假设相同的词汇具有相似的上下文,在大规模语料上学习,并进行聚类,识别同义词。
- 抽取候选术语
- 分类体系构建
获取不同概念之间的继承关系,即上下文关系- 基于词典
wordnet - 基于统计
通过词的上下文进行表示,并基于术语得到层次聚类。不同层次类别内的构成了上下位关系
- 基于词典
- 概念属性及关系抽取
与概念属性抽取一致
- 领域概念抽取
- 基于结构化数据的知识体系学习
基于数据表的主键、外键和字段内容等信息实现上述目标 - 基于半结构化数据的知识体系学习
有一定模式,但是不太严格,如XML、HTML等格式
- 基于非结构化数据的知识体系学习
- 典型知识体系
- SUMO
- Schema.org
- freebase
protege常被应用于基于框架的知识表示模型,一般是先定义类,在定义类中的属性,最后定义类和属性的约束。
知识融合
- 竖直方向的融合
融合高层通用本体与底层领域本体或实例数据 - 水平方向的融合
融合相同层次的知识图谱
如BabelNet融合不同语言的已购知识图谱,实现跨语言的知识关联和共享。
知识融合通过对多个相关知识图谱的对齐、关联和合并,使其成为一个整体。按融合对象的不同分为框架匹配和实体对齐。 - 框架匹配
对概念、属性、关系等知识描述体系进行匹配和融合 - 实体对齐
对齐合并相同的实体完成知识融合
但是实例知识有时有冲突,需要对其检测和消解
- 框架匹配
解决异构性,本体对齐
- 元素级匹配
独立考虑元素是不是匹配,不考虑其他元素的匹配- 字符串匹配:
前缀距离,后缀距离,编辑距离和n元语法距离
这种方法忽略了语言符号的多义性,一词多义和一义多词 - 词向量
将词表示为低维语义向量空间的一个点,语义相似度用点之间的距离来衡量。与字符串相比,有更强的捕获词背后的真正语义的能力。
可将其与其他编辑距离等结合,混合方法获得了很好的性能。
- 字符串匹配:
- 结构级匹配
不把各个元素作为孤立的资源,利用知识图谱的结构,在元素匹配中考虑其他元素的影响。
不同元素的匹配之间也会有影响
例如属性的定义域和值域匹配度高,属性匹配度也高。基本思想是:相似的概念具有相似的概念结构。- 基于图的技术
当做已经标记的图结构
对于两个本体的节点,如果它们的邻接节点是相似的,它们也是相似的。发现最大公共子图的问题,计算量很大 - 基于分类体系的技术
分类体系进行对齐 - 基于统计分析的技术
对已有样本挖掘其中蕴含的规律
分组,计算距离
- 基于图的技术
- 实体对齐
- 成对实体对齐
- 协同实体对齐
- 表示学习方法
计算实体相似度
不需要依赖人工设定的规则和特征,也不需要了解知识库的命名习惯 适应性强
KB1,KB2,产生初始种子对齐,核心思想是种子对齐中的两个向量要尽可能类似。
- 冲突检测和消解
- 冲突忽略
- 冲突避免
过滤 - 冲突消解
基于投票
频率
基于质量
来源
来源:CSDN
作者:imagination_gogo
链接:https://blog.csdn.net/qq_24495287/article/details/87453009