Perturbed Masking：和参数无关的预训练模型分析方法

©PaperWeekly 原创 · 作者｜蔡杰

学校｜北京大学硕士生

研究方向｜问答系统

论文标题：

Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT

论文来源：

ACL 2020

论文链接：

https://arxiv.org/abs/2004.14786

代码链接：

https://github.com/Frank-Smith/Perturbed-Masking

引言

本文是一篇分析 BERT 模型的文章。通常分析 BERT 的时候研究人员会设计一些 probing 任务，并通过 BERT 的每一层参数来尝试解决这些任务，如果某一层能够很好的解决某一任务，那就说明 BERT 在这一层是学到了和该任务相关的语言学信息的。

probing 任务通常被设计为一个简单的神经网络（比如分类任务通常在 BERT 后接一层的 FFN），但是这种做法有个问题：我们无法确定到底是 BERT 本身，还是添加的简单神经网络学到了这些相关的信息，该做法反而增加了模型可解释的难度。

论文贡献

作者提出了一种和参数无关的分析预训练模型的方法：Perturbed Masking，该方法能够分析预训练模型中词与词之间的关系，使全局的句法信息提取成为可能。

作者在多个 NLP 任务中验证了他们方法的有效性（e.g., syntactic parsing, discourse dependency parsing）。

作者还将他们从预训练模型中提取出来的句法结构应用到下游任务中，发现作者他们提取句法信息的性能与解析器创建的句法信息相当、甚至更好。这为发掘 BERT 在下游任务上取得的成功提供了一个视角。

Perturbed Masking

作者提出了利用扰动掩蔽技术（Perturbed Masking）来评估 MLM 中一个词对另一个词的影响。

3.1 BERT

BERT 用了两个预训练任务：MLM 和 NSP。讲讲和本文有关的 MLM（Mask Language Model），一句话中随机选择 15% 的 word 作为替换的候选 word，这些候选的 word 中又分为以下三种情况：

80% 的概率替换为 [MASK] 标记
10% 的概率用随机选择的一个词替换
10% 的概率保持不变

而 bert 要做的就是去预测那些被替换为 [MASK] 标记的 word 原来是什么 word。

3.2 Token Perturbation

作者的目的是找到一个能够建模两个 word 之间的函数。作者把 mask 了第 i 个 word 的句子表示为，把 mask 了第 j 个 word 的句子表示为，然后把 [MASK] 位置对应的 embedding 作为这个 word 的表示。

为了找到第 j 个词对预测第i个词的影响，作者在 mask 了第 i 个词的句子的基础上又 mask 了第 j 个词，整句变成了。

两个 word 之间的函数表示为：

上图中的就是对应的 embedding 函数，d 有以下两种：

第一种 Dist 就是计算两个 embedding 之间的欧式距离。第二种 Prob 需要先把 embedding 映射成关于词表的一个分布，然后对于同一个词的概率相减。

通过重复以上方法，可以得到一个 Impact Matrix，从这个矩阵中我们就可以得到句法树。

作者还提到因为 bert 使用的 BPE 算法，导致一些词会被切分成 sub-words。sub-words 的影响有两个维度，第一种情况是被切成了 sub-words，作者认为中的每个部分对的影响都是相同的，所以就只取了的第一个 sub-word 来计算对的影响。第二种情况就是被切成了 sub-words，在这里是取了对的每一个 sub-word 的影响的平均值。

3.3 Span Perturbation

作者在 token-level 之后，还扩展到了 span-level（包括短语、句子和段落）。

采用的方法和 3.2 是一致的，不一样的地方在于将句子替换为文档，句子中的 token 替换为（短语、句子或段落）。

Visualization with Impact Maps

作者从 CoNLL 2017 共享任务的 PUD treebank 数据集中向 BERT 输入了 1000 个句子，从而提取 Impact Matrix 。图 1 展示了一个示例矩阵。

从图中我们可以注意到矩阵图包含许多位于对角线上的深色条纹。以 different 一词为例(倒数第二列)。在主对角线上观察到一条清晰的垂直深色条纹。作者对此的解释是， different 这个词的出现剧烈地影响了它之前那些词的出现。

这些剧烈的影响体现在上图的倒数第二列中所见的深色像素。这个观察结果与ground-truth的依赖树一致，它选择 different 作为短语 This will be a little different 中所有剩余单词的头。这种情况在 transition 和 hill 中也有类似的模式。

根据图一的 Matrix，作者抽取出来的句法树，可以看到效果还是很不错的。

沿着影响图的对角线，我们还可以看到单词被分成四个连续的具有特定意图的块（例如，一个名词短语 on Capitol Hill）。我们还可以观察到，中间的两个词块有相对紧密的词块之间的联系，因此把他们组在一起，可以形成一个更大的动词短语。这一观察表明，BERT 可以捕捉到语言的组合性。

总结

综上所述，作者提出了一种无参数探测技术来补充目前通过 prob methods 来解释 BERT 的工作。通过精心设计的两阶段的扰动 mask 机制，可以得到了 BERT 的 Impact Matrix。这个矩阵反映了捕捉词间关联的注意机制的功能，作者还设计了算法可以从这个矩阵中提取出句法树。

更多阅读