cs224n

第二讲 cs224n系列之word2vec & 词向量

*爱你&永不变心* 提交于 2020-02-07 09:48:47
本系列是一个基于深度学习的NLP教程,2016年之前叫做CS224d: Deep Learning for Natural Language Processing,之后改名为CS224n: Natural Language Processing with Deep Learning。新版主讲人是泰斗Chris Manning和Richard Socher(这是旧版的讲师),两人分别负责不同的章节。博主在学习的同时,对重点内容做成系列教程,与大家分享! 系列目录(系列更新中) 第二讲 cs224n系列之word2vec & 词向量 1.语言模型 神经概率语言模型(Neural Probabilistic Language Model)中词的表示是向量形式、面向语义的。两个语义相似的词对应的向量也是相似的,具体反映在夹角或距离上。甚至一些语义相似的二元词组中的词语对应的向量做线性减法之后得到的向量依然是相似的。词的向量表示可以显著提高传统NLP任务的性能,例如《基于神经网络的高性能依存句法分析器》中介绍的词、词性、依存关系的向量化对正确率的提升等。 2.word2vec word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型

CS224N研究热点2_Linear Algebraic Structure of Word Senses, with Applications to Polysemy

匿名 (未验证) 提交于 2019-12-02 22:56:40
Paper:Linear Algebraic Structure of Word Senses, with Applications to Polysemy 源代码 相似的单词的词向量编码在欧几里得空间中的分布会彼此相邻: 比如, tie 在游戏比赛的平局;在衣服中的领带;或者表示一种扭曲的动作。 实际得到的 tie 的词向量是 tie-1 、 tie-2 、 tie-3 所有的线性叠加,映射到二维平面上处于中间: 采用一种稀疏编码的算法可以简单地解决这个问题。 其中, A i A i 是每个词义项对应的上下文向量, α i α i 是其权重, η η 是噪音项。 通过稀疏编码,可以将词义项恢复和区分: 观察输出项,可以看到有些与衣服有关,有些和运动有关。有趣的是,同时可以看到音乐类的输出。 找一群研究生,询问这些单词哪一个对应tie,然后与算法结果进行对比。 结果显示,这种算法的结果与调查的非本地研究生的结果差不多。以英语为母语的人在这项任务上做的更好。 词向量可以捕捉多义性 词向量是多义向量的线性叠加 可以通过稀疏编码恢复多义向量,进行语境解释 这种恢复可以达到non-native English Speaker的水平 转载请标明出处: CS224N研究热点2_Linear Algebraic Structure of Word Senses, with