Skip-gram模型
最大化似然函数:
损失函数在最大似然函数上取log,同时取反:
给定中心词的周边词的概率函数使用softmax定义:
负例采样
假设中心词生成背景词是由多个独立事件联合组成来近似:
- 中心词和背景词同时出现在窗口中;
- 中心词和第1个噪声词不同时出现在窗口中;
- 中心词和第2个噪声词不同时出现在窗口中;
- ...
- 中心词和第K个噪声词不同时出现在窗口中;
们假设中心词和其周边词同时出现在窗口时的事件定义为D=1,并使用sigmoid函数进行定义,
中心词和不在同一窗口的背景词出现的事件定义为D=0:
中心词和周边词同时出现在窗口的概率P(D=1)的sigmoid函数定义如下:
联合概率函数
损失函数定义如:
来源:oschina
链接:https://my.oschina.net/u/4228078/blog/4411039