田字格

文献阅读笔记:Glyce2.0(Glyce: Glyph-vectors for Chinese Character Representations)

徘徊边缘 提交于 2019-11-29 10:10:46
0. 背景 机构:香侬科技 作者:Yuxian Meng*, Wei Wu* 发布地方:NeurIPS 2019 面向任务:Language Representation 论文地址:https://arxiv.org/pdf/1901.10125 论文代码:https://github.com/ShannonAI/glyce 0.1 摘要 对于表意文字(logographic,又称语素文字,在非正式场合又称象形文字)语言如中文,从直觉上来说,其NLP任务应该是能够从字形信息中受益。但是,由于象形文字中丰富的象形信息数据甚为匮乏,且标准计算机视觉模型对字符数据的泛化能力较弱,如何有效地利用象形文字信息还有待探索。本文提出Glyce来弥补这一缺憾,Glyce的字形向量是中文字符的一种表征。本文有如下3大创新: (1)使用中文的各种文字形式,比如青铜器上的汉字,篆书,繁体中文等 (2)设计CNN结构(田字格-CNN)以适用中文字符的图像处理 (3)引入图像分类作为多任务学习的辅助任务,通过该辅助任务有效地提升了模型的泛化能力 通过在一系列中文NLP任务上的实验,证明本文基于字形的模型能够超越基于word和基于char的模型,并在多个中文NLP任务如序列标注(包括NER、CWS、POS)、句子对分类、单句分类、依存分析和语义角色标注任务上刷新记录。在OntoNotes(NER数据集