切分也重要:基于多粒度语言单元切分的BERT模型
论文标题: AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION 论文作者: Xinsong Zhang, Hang Li 论文链接: https://arxiv.org/pdf/2008.11869.pdf 不同粒度语言单元的切分 在深度学习时代,将语言单元切分为怎样的粒度是一个很重要的问题,它首先影响了词典的大小,比如英语,如果切分为字符,那词典最多也不会超过100,但是如果切分为词,那词典就会成千上万。 词典大小直接影响了数据的分布,即词典中的有些词是高频词,有些是低频词,甚至可能出现很多未登录词(OOV),这些都对模型最终的效果有影响。 当前主流预训练模型的切分方式大致是:对英语来说,默认采用子词(Subword)的形式,一种介于字和词之间的语言单元粒度,比如BERT采用的是字词。 对中文来说,一般采用字级别的粒度。采用这种粒度的切分方式,相比其他粒度而言表现更好。 但是,这些模型都是基于“单粒度”的切分,也就是说,要么只采用字词,要么只采用字,而单粒度的切分可能会产生一些问题。 比如下图是采用字级别切分粒度的中文BERT模型的注意力图示。可以看到,“拍”关注了“卖”,“北”关注了“京”,“长”和“市”组合了。 但是在这些例子中,它们都错误地关注了字,这是因为对于字级别的模型而言,“北京