文献阅读笔记(五)
2019 Journal of Web Semantics_Linking and disambiguating entities across heterogeneous RDF graphs笔记整理 一、 论文整理思路流程 1.1 论文的相关研究工作 CBD(Concise Bounded Descriptions )简洁有界描述 面对数据相关参数(如选择哪一个属性作为标记)时减少人工识别的困难 根据大量语义实例和现实实例的对数据异质性的分类 提出了基于CBD的实例分析框架,用于在匹配阶段对数据来源进行表示和比较 一种新策略,用于自动识别移除两个数据集之间的“问题”属性(不适合作为标签的属性) 对于大量开源基准的多方面经过检验的衡量标准(基准的衡量标准) 有简易交互界面的本文提出的系统的开源实例 首先提出了数据异质性的分类:根据先前的研究,本文专注于两个数据集之间对于某一信息描述的不同从而发现形式上(属性还是类别)值上和结构上的异质性。本文尤其关注且使用高度异质化的现实经典音乐数据集和大量IM@OAEI产生的合成基准。 1.2 论文主要解决的问题 1.3 论文解决问题的过程 1) 数据值维度的异质性:术语异质性(由于词语的同义性、不同词语的多义性产生,也包括少量的单词拼写错误)、语言异质性(不同语言互相翻译造成的)、数据属性和对象属性异质性