【ICLR2020】Transformer Complex-order:一种新的位置编码方式
补一下昨天没发完的一篇 文中公式若显示不全可左右滑动~ 比较有意思的论文 [1] ,关注的点也是在序列建模的位置信息编码。先前的方法通过引入额外的位置编码,在 embedding 层将词向量和位置向量通过加性编码融合, 但是该种方式每个位置向量是独立训练得到的,并不能建模序列的 order relationship (例如邻接或优先关系),作者将此称为 the position independece problem 。 针对该问题论文提出了一种新的位置编码方式,将独立的词向量替换成自变量为位置的函数,于是单词表示会随着位置的变化而平滑地移动,可以更好地建模单词的绝对位置和顺序信息。 其中, 表示此表中序号为 的单词在位置 时的单词向量, 表示函数集合, 表示单词到函数的映射,展开即为, 为了达到上述要求,函数应该满足以下两个条件: Property 1. Position-free offset transformation 对于任意位置 pos 和 ,存在变换 Transform Transform 满足, 特别地,论文考虑 Transform 为线性变换 Property 2. Boundedness 函数应该是有界的, 接下去,论文证明了满足上述两个条件的解函数形式为, ❝ 贴一下论文给的证明:(看不看无所谓,能用就行 haha) 假设函数 满足上述两个条件,则对于任意位置