【NLP CS224N笔记】Lecture 2 - Word Vector Representations: word2vec
I. Word meaning Meaning 的定义有很多种,其中有: the idea that is represented by a word,phrase,etc. the idea that a person wants to express by using words, signs, etc. 1.Discrete representation 那么在计算机中是如何获取一个word的meaning的呢?常见的解决办法是使用像 WordNet 之类的数据集,它包含了同义词(synonym)组和上位词(hypernyms)组。这种表示方法属于 Discrete representation 上位词(hypernym) ,指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词,”植物”是”花”的上位词,”音乐”是”mp3”的上位词。上位词是相对某主题词的,也有它自己的等同词、上位词、下位词、同类词。 但是类似于WordNet的数据集存在如下缺点: 尽管存储的词条较为丰富,但是 词与词之间缺少细微的差别 。例如 proficient 只是 good 的同义词,但是二者却存在一些差别。 缺少新的词汇,例如Dama(大妈)这种非常fashion的词汇很难及时地更新。 对词的定义较为主观,因为都需要人工提前设定。因此也需要大量的人力去维护这个数据集。 很难计算词之间的相似性。