Word2vec之Skip-gram模型

删除回忆录丶 提交于 2020-08-11 20:54:41

Skip-gram模型

最大化似然函数:

损失函数在最大似然函数上取log,同时取反:

给定中心词的周边词的概率函数使用softmax定义:

负例采样

假设中心词生成背景词是由多个独立事件联合组成来近似:

  • 中心词和背景词同时出现在窗口中;
  • 中心词和第1个噪声词不同时出现在窗口中;
  • 中心词和第2个噪声词不同时出现在窗口中;
  • ...
  • 中心词和第K个噪声词不同时出现在窗口中;

们假设中心词和其周边词同时出现在窗口时的事件定义为D=1,并使用sigmoid函数进行定义,

中心词和不在同一窗口的背景词出现的事件定义为D=0:

中心词和周边词同时出现在窗口的概率P(D=1)的sigmoid函数定义如下:

联合概率函数

损失函数定义如:

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!