2015 Information Fusion_Faceted fusion of
RDF data笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- 距离匹配的RDF融合算法
- 基于内联的RDF融合算法
- 基于规则限制的RDF融合算法
- RDF数据碎片化:特定主题的RDF数据分散在众多不同的数据集中,每一个数据集中的RDF数据仅包含主题的某一个方面。
- 将分散的RDF数据根据不同的方面整合到同一主题中
- 从RDF搜索引擎返回的结果中构造TRG(特定主题的RDF图)然后使用RDF分割算法发现一系列方面。
- 使用RDF分割算法发现一系列方面。
- 对于TRG的分析:在TRG中,节点是三元组的s或者o,边则是对应三元组的p,一条边及两端顶点构成一条三元组。而在TRG中边被分为两种类型,一种反映了s与o的关系,另一种则反映了两个s之间的关系。TRG图可以仅考虑s之间的边而被分割为结构图。
- 关于使用的数据集:通过从网络爬取数据获得六个计算机领域主题的数据集,首先人工标注出各个主题的方面,用于之后的方法对比
- 关于获得的TRG图:发现每一个节点的平均的度是2到3.5,98%的节点是孤立的;此外两个相连接的顶点大部分(96%)都指向同一个方面。此外根据Jaccard相似度计算得到两节点相似度分数越高越可能指向同一个节点(由此可以设置一个阈值)。
- 方面发现算法:将RDF图分割为k个不相交的子图,然后根据相邻节点同质性和相似节点同质性,将TRG分割为结构图和数据图;数据图根据相似度计算出一系列的方面称为数据方面;在结构图中如果一条边链接两个子图,且两个顶点分属不同方面,则可以将这两个方面合并。
- RDF方面发现算法具体过程见笔记本
1.2 论文主要解决的问题
1.3 论文解决问题的过程
1.4 论文使用的实验方法
- 关于人工标注:先给出标注规则,然后两个人独立标注同一个主题,若两人出现标注冲突则提交给第三人标注并作为最终标注结果。
- 一致性评估:人工标注的方面集和算法发现的方面集进行对比,对比指标使用NMI
- 方面发现评估:使用精确度、召回率、F1指标进行评估与之前提到的三种方法进行对比。同样在算法标注和人工标注之间进行评估
- 本文提出的FF方法较前文提到的三种方法更为有效(考虑了TRG的拓扑属性,并且同时考虑了相似度以及拓扑属性)
- 在F1、精确度、召回率这三个指标中,对六个主题的方面提取融合,FF均优于前文的三种方法。
- 将FF与实体分辨整合
- 将FF整合扩展到其他领域
1.5 实验最终结果的评估
1.6 论文的后续工作
二、 论文创新点
- 提出了TRG的方面发现算法
- 发现了TRG的相邻节点同质性和相似节点同质性这两个拓扑属性
- FF算法同时考虑了这两条属性
三、 建议阅读的参考文献
[12]
来源:https://www.cnblogs.com/hwx1997/p/12444077.html