知识图谱构建技术体系
- 知识获取:从不同来源、不同结构的数据中进行知识的提取,形成结构化的知识,当前知识的获取主要针对文本数据进行
- 实体抽取
- 众包:百度百科、维基百科,存储机器可读的、具有一定结构的数据
- 爬虫:通过定义网页中的实体、属性、关系的 pattern,实现对网页数据的获取,例如 Google、Baidu 的搜索引擎
- 机器学习:将数据变成考研理解的知识,例如通过文本分类、主题模型等,可以获取文本的特征,这些特征可以理解为知识
- 专家:垂直领域的专家经验
- NER:命名实体识别
- 关系抽取
- 将文本的关系映射到实体关系三元组上
- 分开研究实体和关系抽取,容易造成错误的累计,可以考虑同时研究
- 事件抽取
- 事件是发生在某个特定时间、地点,由角色参与的行为序列
- 现有的知识库描述的是实体之间的静态关系,事件描述粒度更大的、动态的、结构化的知识
- 属性抽取
- 属性主要针对实体而言,实现对实体的完整性描述
- 可以将属性抽取任务转变为关系抽取任务:实体——属性之间的名词性关系
- 挑战
- 缺乏大规模标注数据:主要采用监督的方法
- 开放域上知识抽取的局限性:数据规模的扩展;数据主题的鲁棒性
- 跨语言抽取
- 跨媒体抽取
- 视觉实体和关系的抽取
- 视觉事件的自然语言描述
- 跨媒体信息融合
- 实体抽取
- 知识表示:将现实世界的知识转变为计算机可识别和处理的内容,是一种描述知识的数据结构,用于对知识的一种描述和约定
- 基于符号的知识表示
- 一阶谓词逻辑表示法
- 产生式规则表示法
- 框架表示法
- 语义网络表示法
- 基于表示学习的知识表示方法
- 知识表示的目:语义计算
- 地位:作为知识抽取、融合、建模、计算、应用的基础,侧重于表达实体、概念之间的语义关联
- 趋势
- 符号和表示学习的融合统一:符号表示考虑了人类的理解方式,具有易表达、严密、通用等优点,但计算效率低,无法捕捉隐语义知识;表示学习计算效率高可靠性低,推理效果不佳
- 面向事理逻辑的知识表示:事件之间的演化规律和模式
- 现有的知识图谱,缺乏对事件之间演化规律的描述和挖掘
- 2018年9月哈工大对外公布大规模财经新闻文本的金融事理图谱
- 融合时空维度的知识表示
- 知识具有时间和空间属性
- 融合多模态的知识表示
- 基于符号的知识表示
- 知识存储
- 概述:针对知识图谱的知识表示形式,设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算
- 对象:属性知识、关联知识、事件知识、时许知识和资源类知识等
- 影响:基于知识图谱的查询、计算和更新效率
- 方式:基于表结构的存储和基于图结构的存储
- 知识融合
- 数据层:面向知识图谱实例层的知识融合
- 实体链接:多类型多模态上下文及知识的统一表示,建模不同信息、证据之间的相互交互
- 基于实体知识的链接
- 基于篇章主题的链接
- 融合上两种方法链接
- 实体消解:去除冗余、重复实体的过程
- 实体链接:多类型多模态上下文及知识的统一表示,建模不同信息、证据之间的相互交互
- 概念层:对多个知识库、信息源在概念层进行模式对齐
- 本体对齐:亦称本体匹配,指确定本体概念之间映射关系的过程
- 跨语言融合
- 趋势
- 短文本资源缺乏下实体链接方法:口语化、上下文不丰富
- 融合先验知识的端到端深度学习实体链接方法:缺乏标注数据、误差的累积
- 数据层:面向知识图谱实例层的知识融合
- 知识建模:即采用什么方式来表达知识,构建一个本体模型对知识进行描述。
- 作用
- 需要构建本体的概念,属性以及概念之间的关系
- 高质量的数据模型能够避免许多不必要的、重复的知识获取工作,有效提高图谱的构建效率,降低领域数据融合成本
- 构建途径
- 自顶向下:构建图谱时,先定义数据模式即本体,一般通过领域专家人工编制。从最顶层的概念开始定义,然后逐步细化,形成结构良好的分类层次结构
- 自底向上:对现有实体 进行归纳组织,形成底层概念,再逐步往上抽象形成上层概念。多用于开放领域知识图谱的本体构建
- 方法
- 手工建模
- 明确领域本体及任务
- 模型复用
- 列出本体设计领域中的元素
- 明确分类体系
- 定义属性及关系
- 定义约束条件
- 半自动建模方法:先通过自动方式获取知识图谱,然后进行大量的人工干预过程
- 手工建模
- 评价
- 明确性和客观性:对定义的术语给出明确、客观的语义定义
- 完全性:定义是完整的,完全能够表达所描述领域内术语的含义
- 一致性:正确一致的展示数据、对象和信息,由术语得出的推论与术语本身含义不会产生矛盾
- 最大单调可扩展性:通过添加通用或专用的术语,不需要修改已有的内容,便于知识图谱扩展
- 最小承诺:尽可能少的约束,指本体约定应该最少
- 有效地支撑业务的分析和决策需求
- 趋势
- 大规模数据建模
- 全自动建模方式
- 实时更新
- 作用
- 知识计算:图谱质量提升、潜在关系挖掘与补全、知识统计与知识推理
- 定义:基于已构建的知识图谱进行能力输出的过程
- 知识统计与图挖掘:基于图特征算法进行社区计算、相似子图计算、链接预测、不一致检测等,基于图论的相关算法
- 知识查询、指标统计、图挖掘
- 图查询检索:查询目标节点的n度关联方,子图结构等
- 图特征统计:对图中的一个节点或多个节点的特征或属性进行的统计计算,例如出度、入度、介度和中心度
- 关联分析:分析图中两个及以上节点之间的关联关系、紧密程度,进而实现社群发现和分割
- 节点分类:根据某些图特征或关联属性,对图中的节点进行分类,例如信用违约公司典型的风险路径
- 异常检测:在全网中发现异常节点、异常子图等,例如出入度数值离群的节点、闭环的投资关系
- 预测推理:基于规则和机器学习的方法,从已有的图谱中,推理学习出新的关系和信息,适用于弱关系推理、链接预测、概率推理
- 时序分析:对单一的关系、事件做时序分析,或者网络拓扑结构的变化做时序分析,例如变更行为、风险传播
- 知识推理:基于图谱的逻辑推理算法;从给定知识 图谱中推导出新的实体、关系和属性;按照某种策略,从已有的知识推理出新的知识的过程
- 基于符号的推理
- 基于统计的推理
- 知识运维:初版知识图谱构建完成后,基于用户的反馈和新增知识,对知识图谱的一个演进和完善过程
- 从数据源方面,基于增量数据的知识图谱的构建过程监控
- 从业务层面,发现的知识错误和新的业务需求
来源:CSDN
作者:wwlsm_zql
链接:https://blog.csdn.net/wwlsm_zql/article/details/104043182