AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

戏子无情 提交于 2019-12-31 21:57:53

2019-12-31 05:44:06

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

作者 | 岂凡超(清华大学)

责编 | Camel

本文对清华大学完成的已被 AAAI-20 录用的论文《Towards Building a Multilingual Sememe Knowledge Base: Predicting Sememes for BabelNet Synsets》进行解读。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

论文链接:arxiv.org/pdf/1912.0179

代码和数据:https://github.com/thunlp/BabelNet-Sememe-Prediction

该文旨在借助 BabelNet 这个多语言百科词典来构建一个多语言的义原知识库,即为多种不同语言的词语标注义原。该文构建了一个小规模的种子知识库,并且提出了两种使用不同信息的模型——为 BabelNet 中的 synset 自动预测义原进而将小规模种子知识库扩充成最终可用的大规模义原知识库。

 

一、研究背景

人类语言可以划分成不同层次——句子可以划分成短语或词组,再进一步划分成词。词是最小的可以独立运用的单位,也是自然语言处理最常用的语言单位。但从语义层面讲,词还可以进一步细分为义原——也即语言学家定义的最小的语义单位。

一些语言学家认为所有语言的所有词语的意思都可以用一个有限的义原集合来表达。例如「男孩」这个词的意思可以由「人类」、「男性」、「儿童」这三个义原的组合所表达,「女孩」则可以由「人类」、「女性」、「儿童」的组合来表达。并且有语言学家认为义原体系在任何语言中都是适用的,并不与特定语言相关。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 1 HowNet 中的义原标注示例

为了能在自然语言处理实践中应用义原,董振东和董强先生花费数十年时间构建了最著名的义原知识库——知网(HowNet)[1]。HowNet 预定义了两千多个义原,并用其标注了十万多个中/英文词语。每个词语的每个义项都用若干义原标注以表达其语义。如图 1 中的例子,「husband」这个多义词在 HowNet 中有「丈夫」和「节俭」两个义项(意思),其中「丈夫」这个意思被标注了「人类」、「家庭」、「男性」、「配偶」这四个义原,而「节俭」这个意思则被标注了「节约」这一个义原。

HowNet 一经提出,就引起了自然语言处理研究界的轰动,无数将义原应用于不同的自然语言处理任务的工作相继提出,例如词相似度计算 [2],词义消歧 [3],情感分析 [4] 等等。近年来,也有一些工作将义原应用于基于神经网络的自然语言处理,例如词表示学习 [5],语言模型 [6],语义组合 [7],aspect 抽取 [8],文本对抗 [9],序列建模 [10] 等。

 

二、研究动机

然而,HowNet 中已标注义原的英文词语数量有限,仅占 WordNet 英文词数的 32.8%(50879/155287),且中英之外其他语言的词语没有义原标注。这导致义原在自然语言处理领域的应用范围被大大局限——也是此前义原主要被用于中文自然语言处理任务的原因。

为了解决这一问题,有人提出跨语言词语的义原预测 [11],旨在通过双语词表示对齐的方式为其他语言的词语预测义原。但这种方法一次只能为一种语言的词语预测义原,不是非常高效,并且该方法无法进行义项层面的义原预测。

 

三、研究方法

和跨语言词语义原预测的思路不同,该文提出基于 BabelNet 来构建多语言义原知识库的方案。BabelNet[12] 是一个多语言百科词典,由 BabelNet synset 组成,每个 synset 包含意义相同的不同语言的词语,图 2 给出了一个例子——这个 synset 包含英语、汉语、法语、德语等各种语言表示「丈夫」这个意思的词语。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

一个 synset 中不同语言的词语都应该被标注同样的义原,换言之,直接为 BabelNet synset 标注义原就可以同时为多个语言的词语标注义原,从而高效地构建一个多语言义原知识库。除了高效之外,基于 BabelNet 来构建多语言义原知识库的方案还有其他好处:直接将义原标注在义项层面;BabelNet 蕴含的丰富的信息都可以为义原预测所用——包括维基百科、WordNet、FrameNet 等等。

 

3.1 BabelSememe 数据集

为了推进大规模多语言义原知识库的构建,该文首先标注了一个种子知识库 BabelSememe。它包含约一万五千个 synset,每个 synset 由人工标注了若干义原。由于此前义原的结构鲜少被使用,同时为了节省成本,BabelSememe 的标注暂时忽略了义原的结构。图 2 给出了「丈夫」对应的 synset 被标注的 4 个义原。图 3 给出了 BabelSememe 的数据统计。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 3 BabelSememe 数据集分词性统计

 

3.2 BabelNet synset 义原预测形式化定义

有了种子知识库,下一步就是基于有义原标注的 synset,为无标注的 synset 标注义原,进而将种子知识库不断扩充成最终的大规模义原知识库。该文首次提出并正式定义了 BabelNet synset 义原预测任务。

如图 4 所示,

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 4 BabelNet synset 义原预测形式化

定义 为对 BabelNet 的某个 Synset “b” 的预测义原集合,P(s|b) 为给定 b 时,义原 s 的预测分数, 为义原预测分数阈值。即为某个 synset 预测义原时,首先使用某种方法计算所有义原被预测给当前 synset 的分数,然后选取预测分数高于某个阈值的义原作为最终预测结果。

 

3.3 方法一:基于语义表示的 Synset 义原预测

这种方法的思路非常直观,即意思相近的 synset 其所标注义原也应该相似——这和推荐系统中常用的协同过滤方法非常类似。其中 synset 之间的相似性利用了 BabelNet 提供的 NASARI[13] synset embedding 的余弦相似度衡量。

这种方法的公式如图 5 所示,

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 5 基于语义表示的 Synset 义原预测公式

为已有义原标注的 Synset 集合, 和 分别表示 Synset 和′的 embedding, 用来判断义原 s 是否在集合 中, 为递减置信因子。

3.4 方法二:基于关系表示的 Synset 义原预测

第二种方法是基于关系表示的。BabelNet 包含很多 synset 之间的关系,例如同义、反义、上下位等。与此同时,HowNet 也定义了若干种义原之间的关系,那么自然地,synset 之间的关系和 synset 所标注的义原之间的关系应该是对应的,利用这种性质便可以进行义原预测。例如,

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 6 利用 Synset 之间的关系与其义原之间的关系相一致的特性进行义原预测

图 6 中 better 和 worse 这两个 synset 存在反义的关系,他们分别被标注了 superior 和 inferior 这两个同样存在反义关系的义原。那么,在已知 better 和 worse、superior 和 inferior 这两对反义关系,以及 better 有 superior 这个义原,很容易推测出中 worse 含有 inferior 这个义原。

基于此,这篇论文建立了一个语义图,节点有 synset 和义原两种,关系有三种:synset 之间的关系、义原之间的关系以及 synset 和义原之间被标注的关系(hava_sememe)。synset 义原预测也就转化为了知识图谱中实体预测的任务,即给定头实体——待义原预测的 synset,给定关系 have semem,预测尾实体义原。这篇论文利用了知识图谱任务中最经典的 TransE 模型来学习这些实体和关系的表示以进行预测。

此外,考虑到 synset 义原预测任务的特殊性,文中还额外引入了一个语义相等约束。词的语义可以由其义原组合而成,synset 也有类似的性质,因此文中提出 synset 与其义原之和有一个语义等价的关系,并且在模型训练时额外引入语义相等约束,

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 7 synset 与其义原之和存在语义相等关系

图 7 中 husband 这个 synset 加上语义相等关系等于义原 embedding 的和。因此方法二训练时的总损失函数为两者之和,如图 8 所示。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 8 方法二训练时的总损失函数

此外,文中还通过简单的顺序倒数加权相加的方式将两种方法进行了集成: 。

 

四、实验

该文利用自己构建的 BabelSememe 数据集对提出的 synset 义原预测模型进行了评测。其中为了对比,设置了两个基线方法:(1)同样使用了 synset 的语义表示(NASARI embedding)的逻辑回归(LR)和(2)基于关系表示的 TransE。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 9 synset 义原预测实验结果(按照 synset 词性分别评测)

通过观察图 9 给出的实验结果发现,文中提出的方法一 SPBS-SR 和方法二 SPBS-RR 分别好于两个基线模型,而且集成模型 Ensemble 获得了最好的结果。

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库

图 10 定量分析(synset 度数、synset 义原数、义原度数对预测结果的影响)

此外,论文还进行了一系列的定量分析,以探讨影响 synset 义原预测结果的因素。发现义原预测结果和 synset 以及义原度数(即方法二的语义图中节点度数)都成正相关,随着 sysnet 义原数量的增加先增加后减小。

 

五、结论

该文首次提出基于 BabelNet 构建多语言义原知识库这一思路来为其他语言的词语标注义原,相比于此前的方法更加高效和经济。并且还提出了 BabelNet synset 义原预测任务以及两种不同类型的预测方法,对这一任务进行了大量的定量分析。

该文论文已经公开在 arXiv:arxiv.org/pdf/1912.0179,代码和数据也已经放在 GitHub:https://github.com/thunlp/BabelNet-Sememe-Prediction

参考文献

[1] Dong, Z., and Dong, Q. 2003. HowNet-a hybrid language and knowledge resource. In Proceedings of NLP-KE.

[2] Liu, Q., and Li, S. 2002. Word similarity computing based on HowNet. International Journal of Computational Linguistics & Chinese Language Processing 7(2):59–76.

[3] Duan, X.; Zhao, J.; and Xu, B. 2007. Word sense disambiguation through sememe labeling. In Proceedings of IJCAI.

[4] Fu, X.; Liu, G.; Guo, Y.; and Wang, Z. 2013. Multi-aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon. Knowledge-Based Systems 37:186–195.

[5] Niu, Y.; Xie, R.; Liu, Z.; and Sun, M. 2017. Improved word representation learning with sememes. In Proceedings of ACL.

[6] Gu, Y.; Yan, J.; Zhu, H.; Liu, Z.; Xie, R.; Sun, M.; Lin, F.; and Lin, L. 2018. Language modeling with sparse product of sememe experts. In Proceedings of EMNLP.

[7] Qi, F.; Huang, J.; Yang, C.; Liu, Z.; Chen, X.; Liu, Q.; and Sun, M. 2019a. Modeling semantic compositionality with sememe knowledge. In Proceedings of ACL.

[8] Luo, L.; Ao, X.; Song, Y.; Li, J.; Yang, X.; He, Q.; and Yu, Dong. 2019. Unsupervised Neural Aspect Extraction with Sememes. In Proceedings of IJCAI.

[9] Zang, Y.; Yang, C.; Qi, F.; Liu, Z.; Zhang, M.; Liu, Q.; and Sun, M. 2019. Textual adversarial attack as combinatorial optimization. arXiv preprint arXiv:1910.12196.

[10] Qin, Y.; Qi, F.; Ouyang, S.; Liu, Z.; Yang, C.; Wang, Y.; Liu, Q.; and Sun, M. 2019. Enhancing recurrent neural networks with sememes. arXiv preprint arXiv:1910.08910.

[11] Qi, F.; Lin, Y.; Sun, M.; Zhu, H.; Xie, R.; and Liu, Z. 2018. Crosslingual lexical sememe prediction. In Proceedings of EMNLP.

[12] Navigli, R., and Ponzetto, S. P. 2012a. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence 193:217–250.

[13] Camacho-Collados, J.; Pilehvar, M. T.; and Navigli, R. 2016. Nasari: Integrating explicit knowledge and corpus statistics for a multilingual representation of concepts and entities. Artificial Intelligence 240:36–64.

AAAI 2020 论文集:

AAAI 2020 | 这 10 篇论文值得你了解(附PPT下载)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!