相似的单词的词向量编码在欧几里得空间中的分布会彼此相邻:
比如,tie
在游戏比赛的平局;在衣服中的领带;或者表示一种扭曲的动作。
实际得到的tie
的词向量是tie-1
、tie-2
、tie-3
所有的线性叠加,映射到二维平面上处于中间:
采用一种稀疏编码的算法可以简单地解决这个问题。
其中,是每个词义项对应的上下文向量,是其权重,是噪音项。
通过稀疏编码,可以将词义项恢复和区分:
观察输出项,可以看到有些与衣服有关,有些和运动有关。有趣的是,同时可以看到音乐类的输出。
找一群研究生,询问这些单词哪一个对应tie,然后与算法结果进行对比。
结果显示,这种算法的结果与调查的非本地研究生的结果差不多。以英语为母语的人在这项任务上做的更好。
- 词向量可以捕捉多义性
- 词向量是多义向量的线性叠加
- 可以通过稀疏编码恢复多义向量,进行语境解释
- 这种恢复可以达到non-native English Speaker的水平