交叉熵和极大似然

无人久伴 提交于 2019-11-28 04:02:52

交叉熵是用来计算两个函数或者概率之间的距离,计算的方式也是使用的KL Divergence

理解交叉熵作为神经网络的损失函数的意义:
交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近,即拟合的更好。
CrossEntropy=H(p)+DKL(p∣∣q)CrossEntropy=H(p)+DKL(p∣∣q)      Cross Entropy= H(p)+DKL(p||q)CrossEntropy=H(p)+DKL(p∣∣q)
当p分布是已知,则熵是常量;于是交叉熵和KL散度则是等价的。
最小化KL散度和模型采用最大似然估计进行参数估计又是一致的。(可以从公式推导上证明)
这也是很多模型又采用最大似然估计作为损失函数的原因。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!