CS224N研究热点2_Linear Algebraic Structure of Word Senses, with Applications to Polysemy

匿名 (未验证) 提交于 2019-12-02 22:56:40



相似的单词的词向量编码在欧几里得空间中的分布会彼此相邻:



比如,tie在游戏比赛的平局;在衣服中的领带;或者表示一种扭曲的动作。



实际得到的tie的词向量是tie-1tie-2tie-3所有的线性叠加,映射到二维平面上处于中间:



采用一种稀疏编码的算法可以简单地解决这个问题。



其中,Ai是每个词义项对应的上下文向量,αi是其权重,η是噪音项。

通过稀疏编码,可以将词义项恢复和区分:



观察输出项,可以看到有些与衣服有关,有些和运动有关。有趣的是,同时可以看到音乐类的输出。

找一群研究生,询问这些单词哪一个对应tie,然后与算法结果进行对比。



结果显示,这种算法的结果与调查的非本地研究生的结果差不多。以英语为母语的人在这项任务上做的更好。

  • 词向量可以捕捉多义性
  • 词向量是多义向量的线性叠加
  • 可以通过稀疏编码恢复多义向量,进行语境解释
  • 这种恢复可以达到non-native English Speaker的水平
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!