©PaperWeekly 原创 · 作者|蔡杰
学校|北京大学硕士生
研究方向|问答系统
论文标题:
Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT
论文来源:
ACL 2020
论文链接:
https://arxiv.org/abs/2004.14786
代码链接:
https://github.com/Frank-Smith/Perturbed-Masking
引言
本文是一篇分析 BERT 模型的文章。通常分析 BERT 的时候研究人员会设计一些 probing 任务,并通过 BERT 的每一层参数来尝试解决这些任务,如果某一层能够很好的解决某一任务,那就说明 BERT 在这一层是学到了和该任务相关的语言学信息的。
probing 任务通常被设计为一个简单的神经网络(比如分类任务通常在 BERT 后接一层的 FFN),但是这种做法有个问题:我们无法确定到底是 BERT 本身,还是添加的简单神经网络学到了这些相关的信息,该做法反而增加了模型可解释的难度。
论文贡献
作者提出了一种和参数无关的分析预训练模型的方法:Perturbed Masking, 该方法能够分析预训练模型中词与词之间的关系,使全局的句法信息提取成为可能。
作者在多个 NLP 任务中验证了他们方法的有效性(e.g., syntactic parsing, discourse dependency parsing)。
作者还将他们从预训练模型中提取出来的句法结构应用到下游任务中,发现作者他们提取句法信息的性能与解析器创建的句法信息相当、甚至更好。这为发掘 BERT 在下游任务上取得的成功提供了一个视角。
Perturbed Masking
作者提出了利用扰动掩蔽技术(Perturbed Masking)来评估 MLM 中一个词对另一个词的影响。
3.1 BERT
BERT 用了两个预训练任务:MLM 和 NSP。讲讲和本文有关的 MLM(Mask Language Model),一句话中随机选择 15% 的 word 作为替换的候选 word,这些候选的 word 中又分为以下三种情况:
80% 的概率替换为 [MASK] 标记
10% 的概率用随机选择的一个词替换
10% 的概率保持不变
而 bert 要做的就是去预测那些被替换为 [MASK] 标记的 word 原来是什么 word。
3.2 Token Perturbation
作者的目的是找到一个能够建模两个 word 之间的函数。作者把 mask 了第 i 个 word 的句子表示为 ,把 mask 了第 j 个 word 的句子表示为 ,然后把 [MASK] 位置对应的 embedding 作为这个 word 的表示。
为了找到第 j 个词 对预测第i个词 的影响,作者在 mask 了第 i 个词的句子 的基础上又 mask 了第 j 个词,整句变成了 。
两个 word 之间的函数 表示为:
上图中的 就是对应的 embedding 函数,d 有以下两种:
第一种 Dist 就是计算两个 embedding 之间的欧式距离。第二种 Prob 需要先把 embedding 映射成关于词表的一个分布,然后对于同一个词的概率相减。
通过重复以上方法,可以得到一个 Impact Matrix,从这个矩阵中我们就可以得到句法树。
作者还提到因为 bert 使用的 BPE 算法,导致一些词会被切分成 sub-words。sub-words 的影响有两个维度,第一种情况是 被切成了 sub-words,作者认为 中的每个部分对 的影响都是相同的,所以就只取了 的第一个 sub-word 来计算 对 的影响。第二种情况就是 被切成了 sub-words,在这里是取了 对 的每一个 sub-word 的影响的平均值。
3.3 Span Perturbation
作者在 token-level 之后,还扩展到了 span-level(包括短语、句子和段落)。
采用的方法和 3.2 是一致的,不一样的地方在于将句子替换为文档,句子中的 token 替换为(短语、句子或段落)。
Visualization with Impact Maps
作者从 CoNLL 2017 共享任务的 PUD treebank 数据集中向 BERT 输入了 1000 个句子,从而提取 Impact Matrix 。图 1 展示了一个示例矩阵。
从图中我们可以注意到矩阵图包含许多位于对角线上的深色条纹。以 different 一词为例(倒数第二列)。在主对角线上观察到一条清晰的垂直深色条纹。作者对此的解释是, different 这个词的出现剧烈地影响了它之前那些词的出现。
这些剧烈的影响体现在上图的倒数第二列中所见的深色像素。这个观察结果与ground-truth的依赖树一致,它选择 different 作为短语 This will be a little different 中所有剩余单词的头。这种情况在 transition 和 hill 中也有类似的模式。
根据图一的 Matrix,作者抽取出来的句法树,可以看到效果还是很不错的。
沿着影响图的对角线,我们还可以看到单词被分成四个连续的具有特定意图的块(例如,一个名词短语 on Capitol Hill)。我们还可以观察到,中间的两个词块有相对紧密的词块之间的联系,因此把他们组在一起,可以形成一个更大的动词短语。这一观察表明,BERT 可以捕捉到语言的组合性。
总结
综上所述,作者提出了一种无参数探测技术来补充目前通过 prob methods 来解释 BERT 的工作。通过精心设计的两阶段的扰动 mask 机制,可以得到了 BERT 的 Impact Matrix。这个矩阵反映了捕捉词间关联的注意机制的功能,作者还设计了算法可以从这个矩阵中提取出句法树。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
来源:oschina
链接:https://my.oschina.net/u/4258176/blog/4741020