知识图谱简介
本文根据幕布上这篇思维导图总结而得无需AI基础,小白也能看懂的知识图谱技术与应用 ##一、什么是知识图谱? ###定义 学术上:语义网络(Semantic Network)的知识库 应用中:多关系图(Multi-relational Graph) ###什么叫多关系图? 图:由节点和边构成,通常只包含一种类型的节点和边 多关系图:包含多种类型的节点和多种类型的边 ###知识图谱中的节点和边 节点:
- 通常用实体(Entity)来表达
- 实体:现实世界中的事物
边
- 通常用关系(Relation)来表达
- 关系:不同实体之间的某种联系 ##二、知识图谱的表达 ###属性图(Property Graph) 运用前提:当知识图拥有属性时 运用场景:工业界 图片概述:李明李飞是父子关系,李明拥有138开头的电话号,开通时间是2018 电话号属性:2018年开通 李明属性:25岁、职位总经理 ###RDF(资源描述框架) 运用前提:不支持实体或关系拥有属性 运用场景:学术界 ##三、知识抽取 ###数据主要来自2种渠道
- 业务本身的数据
- 包含在公司内的数据库表
- 以结构化的方式存储
- 只需简单预处理即可输入后续AI系统
- 网络公开、抓取的数据
- 以网页形式存在
- 属于非结构化数据
- 需要借助自然语言处理等技术提取结构化信息
处理非结构化数据涉及的自然语言处理技术
- 实体命名识别(Name Entity Recognition)
- 从文本里提取出实体
- 对每个实体做分类/打标签
- 关系抽取(Relation Extraction)
- 把实体间的关系从文本中提取出来
- 实体统一(Entity Resolution)
- 有些实体写法不一样,但指向同一个实体
- 合并实体,减少种类,降低图谱稀疏性
- 指代消解(Coreference Resolution)
- 分清文中出现的代词到底指向哪个实体
四、知识图谱的存储
基于RDF的存储
- 以三元组的方式来存储数据
- 不包含属性信息
- 数据易发布、易共享
- 多用于学术界场景
- 推荐使用:Jena
基于图数据库的存储
- 以属性图为基本的表示形式
- 节点和关系可以带有属性
- 高效的图查询和搜索
- 多用于工业界场景
- 推荐使用:Neo4j
五、金融知识图谱的搭建
搭建的核心:
- 对业务的理解
- 知识图谱本身的设计
搭建步骤:
- 定义具体的业务问题
- 数据的收集和预处理
- 知识图谱的设计
- 把数据存入知识图谱
- 上层应用的开发,以及系统的评估
1. 定义具体的业务问题
哪种业务问题适合用知识图谱?
- 有强烈的可视化需求
- 经常涉及到关系的深度搜索
- 对关系查询效率有实时性要求
- 数据多样化,解决数据孤岛问题
- 有能力、有成本搭建系统
哪种业务问题适合用传统数据库?
- 对可视化需求不高
- 很少涉及关系的深度搜索
- 关系查询效率要求不高
- 数据缺乏多样性
- 暂时没有人力或成本不够
案例需要解决的业务问题
- P2P网贷环境下的反欺诈风控
2. 数据的收集 & 预处理
确定数据源:
- 用户的基本信息
- 大多存储在业务表里,可直接提取使用: 如姓名、年龄、学历等
- 个别字段需要进一步处理: 同一实体如用不同名称填写,则需要对齐
- 用户行为数据
- 需要通过简单的处理,提取有效的信息: 如:“用户在某个页面停留时长”
- 运营商数据
- 网络上的公开信息
- 需要信息抽取相关技术
3. 知识图谱的设计
常见问题 需要哪些实体、关系和属性? 哪些属性可以做为实体,哪些实体可以作为属性? 哪些信息不需要放在知识图谱中? 设计知识图谱BAFE原则 Business-业务原则 从业务逻辑出发
- 观察知识图谱可以推导出业务逻辑
- 设计时想好未来业务可能的变化
Analytics-分析原则 与关系分析无关的实体不放进图谱 Efficiency-效率原则
- 常用信息放进知识图谱
- 对分析没有太多作用的不放进图谱
- 访问效率低的不放进图谱
Redundancy-冗余原则 重复性信息、高频信息可放入传统数据库
####4. 把数据存入知识图谱 10亿节点以下规模的图谱 使用Neo4j 超过10亿节点的庞大数据量
- 选择支持准分布式的系统(OrientDB, JanusGraph)
- 通过效率、冗余原则把信息存放在传统数据库中,减少知识图谱信息量
####5. 上层应用的开发,以及系统的评估 #####基于规则的方法论 不一致性验证
- 通过规则找出潜在的矛盾点
- 如:李明、李飞注明同样的公司电话,但两人公司数据不一致
基于规则提取特征
- 特征一般基于深度的搜索
- 如:申请人二度关系里有多少个实体触碰了黑名单?
基于模式的判断
- 适用于找出团体欺诈
- 核心在于通过一些模式找到有可能存在风险的团体或者子图(sub-graph),然后对这部分子图做进一步的分析
- 如:三个实体共享很多信息,可看做为团体并进一步分析
#####基于概率的方法 社区挖掘:从数据图中找出一些社区,进行进一步分析 标签传播:核心在于节点之间信息的传递 基于概率的方法的缺点:需要足够多的数据 #####基于动态网络的分析
- 聚焦时间变化与风险之间的关联
- 如:从T到T+1时刻的图谱结构变化,暗示着潜在风险
##六、知识图谱在其他行业的应用
教育行业
依据交互、评测、互动数据,理解学生当前的知识体系 根据逻辑进行个性化教育、因材施教
证券行业
最为常见:“一个事件发生了,对哪些公司产生什么样的影响?” 如:公司1高管的负面事件,对其他公司的影响
来源:oschina
链接:https://my.oschina.net/u/4281239/blog/3859426