[NLP]XLNet论文理解
论文地址: https://arxiv.org/pdf/1906.08237.pdf 简介 XLNet 是一个类似 BERT 的模型,但是它采用了通用的自回归预训练方法 (AR 模型 ) ,而基于 DAE 的 Bert 模型采用的则是降噪自动编码方法 (AE 模型 ) , bert 和 AR 模型的区别主要是在以下三方面: 1 、独立假设: bert 中一个序列中会被 mask 掉不超过 15% 的单词,但是在预训练时的目标函数是基于 mask 值彼此独立、互不干扰的假设下进行计算的,而 AR 模型中不需要设置 mask 值,预训练时的目标函数也不必设立独立假设。同时, mask 的设置会导致预训练 - 微调的数据上的不统一,这也是 Bert 的一个缺陷。 2 、输入噪声: Bert 在预训练时对输入序列进行随机 mask ,这是一种输入噪声设定,但是在下游任务进行微调时却并没有对输入序列设置输入噪声,即随机 mask ,这引起了预训练 - 微调间的差异。与之相反, AR 模型不设置输入噪声,因而不会有这种问题。 3 、上下文依赖: AR 模型只考虑前向信息或者后向信息,而 bert 要考虑双向信息,结果就是, bert 的目标函数允许模型被训练为能够更好地抓取双向信息。 XLNet(AR 模型 ) 总体思路 XLNet 提出了一种让 AR 语言模型 ( 单向的输入和预测模式 )