知识图谱构建过程

喜夏-厌秋 提交于 2020-01-20 04:16:57

知识图谱构建技术体系


  1. 知识获取:从不同来源、不同结构的数据中进行知识的提取,形成结构化的知识,当前知识的获取主要针对文本数据进行
    知识获取
    1. 实体抽取
      1. 众包:百度百科、维基百科,存储机器可读的、具有一定结构的数据
      2. 爬虫:通过定义网页中的实体、属性、关系的 pattern,实现对网页数据的获取,例如 Google、Baidu 的搜索引擎
      3. 机器学习:将数据变成考研理解的知识,例如通过文本分类、主题模型等,可以获取文本的特征,这些特征可以理解为知识
      4. 专家:垂直领域的专家经验
      5. NER:命名实体识别
    2. 关系抽取
      1. 将文本的关系映射到实体关系三元组上
      2. 分开研究实体和关系抽取,容易造成错误的累计,可以考虑同时研究
    3. 事件抽取
      1. 事件是发生在某个特定时间、地点,由角色参与的行为序列
      2. 现有的知识库描述的是实体之间的静态关系,事件描述粒度更大的、动态的、结构化的知识
    4. 属性抽取
      1. 属性主要针对实体而言,实现对实体的完整性描述
      2. 可以将属性抽取任务转变为关系抽取任务:实体——属性之间的名词性关系
    5. 挑战
      1. 缺乏大规模标注数据:主要采用监督的方法
      2. 开放域上知识抽取的局限性:数据规模的扩展;数据主题的鲁棒性
      3. 跨语言抽取
      4. 跨媒体抽取
        1. 视觉实体和关系的抽取
        2. 视觉事件的自然语言描述
        3. 跨媒体信息融合
  2. 知识表示:将现实世界的知识转变为计算机可识别和处理的内容,是一种描述知识的数据结构,用于对知识的一种描述和约定
    知识表示
    1. 基于符号的知识表示
      1. 一阶谓词逻辑表示法
      2. 产生式规则表示法
      3. 框架表示法
      4. 语义网络表示法
    2. 基于表示学习的知识表示方法
    3. 知识表示的目:语义计算
    4. 地位:作为知识抽取、融合、建模、计算、应用的基础,侧重于表达实体、概念之间的语义关联
    5. 趋势
      1. 符号和表示学习的融合统一:符号表示考虑了人类的理解方式,具有易表达、严密、通用等优点,但计算效率低,无法捕捉隐语义知识;表示学习计算效率高可靠性低,推理效果不佳
      2. 面向事理逻辑的知识表示:事件之间的演化规律和模式
        1. 现有的知识图谱,缺乏对事件之间演化规律的描述和挖掘
        2. 2018年9月哈工大对外公布大规模财经新闻文本的金融事理图谱
      3. 融合时空维度的知识表示
        1. 知识具有时间和空间属性
      4. 融合多模态的知识表示
  3. 知识存储
    知识存储
    1. 概述:针对知识图谱的知识表示形式,设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算
    2. 对象:属性知识、关联知识、事件知识、时许知识和资源类知识等
    3. 影响:基于知识图谱的查询、计算和更新效率
    4. 方式:基于表结构的存储和基于图结构的存储
  4. 知识融合
    知识融合
    1. 数据层:面向知识图谱实例层的知识融合
      1. 实体链接:多类型多模态上下文及知识的统一表示,建模不同信息、证据之间的相互交互
        1. 基于实体知识的链接
        2. 基于篇章主题的链接
        3. 融合上两种方法链接
      2. 实体消解:去除冗余、重复实体的过程
    2. 概念层:对多个知识库、信息源在概念层进行模式对齐
      1. 本体对齐:亦称本体匹配,指确定本体概念之间映射关系的过程
      2. 跨语言融合
    3. 趋势
      1. 短文本资源缺乏下实体链接方法:口语化、上下文不丰富
      2. 融合先验知识的端到端深度学习实体链接方法:缺乏标注数据、误差的累积
  5. 知识建模:即采用什么方式来表达知识,构建一个本体模型对知识进行描述。
    1. 作用
      1. 需要构建本体的概念,属性以及概念之间的关系
      2. 高质量的数据模型能够避免许多不必要的、重复的知识获取工作,有效提高图谱的构建效率,降低领域数据融合成本
    2. 构建途径
      1. 自顶向下:构建图谱时,先定义数据模式即本体,一般通过领域专家人工编制。从最顶层的概念开始定义,然后逐步细化,形成结构良好的分类层次结构
      2. 自底向上:对现有实体 进行归纳组织,形成底层概念,再逐步往上抽象形成上层概念。多用于开放领域知识图谱的本体构建
        知识建模
    3. 方法
      1. 手工建模
        手工建模
        1. 明确领域本体及任务
        2. 模型复用
        3. 列出本体设计领域中的元素
        4. 明确分类体系
        5. 定义属性及关系
        6. 定义约束条件
      2. 半自动建模方法:先通过自动方式获取知识图谱,然后进行大量的人工干预过程
        自动建模
    4. 评价
      1. 明确性和客观性:对定义的术语给出明确、客观的语义定义
      2. 完全性:定义是完整的,完全能够表达所描述领域内术语的含义
      3. 一致性:正确一致的展示数据、对象和信息,由术语得出的推论与术语本身含义不会产生矛盾
      4. 最大单调可扩展性:通过添加通用或专用的术语,不需要修改已有的内容,便于知识图谱扩展
      5. 最小承诺:尽可能少的约束,指本体约定应该最少
      6. 有效地支撑业务的分析和决策需求
    5. 趋势
      1. 大规模数据建模
      2. 全自动建模方式
      3. 实时更新
  6. 知识计算:图谱质量提升、潜在关系挖掘与补全、知识统计与知识推理
    知识计算
    1. 定义:基于已构建的知识图谱进行能力输出的过程
    2. 知识统计与图挖掘:基于图特征算法进行社区计算、相似子图计算、链接预测、不一致检测等,基于图论的相关算法
      1. 知识查询、指标统计、图挖掘
      2. 图查询检索:查询目标节点的n度关联方,子图结构等
      3. 图特征统计:对图中的一个节点或多个节点的特征或属性进行的统计计算,例如出度、入度、介度和中心度
      4. 关联分析:分析图中两个及以上节点之间的关联关系、紧密程度,进而实现社群发现和分割
      5. 节点分类:根据某些图特征或关联属性,对图中的节点进行分类,例如信用违约公司典型的风险路径
      6. 异常检测:在全网中发现异常节点、异常子图等,例如出入度数值离群的节点、闭环的投资关系
      7. 预测推理:基于规则和机器学习的方法,从已有的图谱中,推理学习出新的关系和信息,适用于弱关系推理、链接预测、概率推理
      8. 时序分析:对单一的关系、事件做时序分析,或者网络拓扑结构的变化做时序分析,例如变更行为、风险传播
    3. 知识推理:基于图谱的逻辑推理算法;从给定知识 图谱中推导出新的实体、关系和属性;按照某种策略,从已有的知识推理出新的知识的过程
      1. 基于符号的推理
      2. 基于统计的推理
  7. 知识运维:初版知识图谱构建完成后,基于用户的反馈和新增知识,对知识图谱的一个演进和完善过程
    知识运维
    1. 从数据源方面,基于增量数据的知识图谱的构建过程监控
    2. 从业务层面,发现的知识错误和新的业务需求
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!