交叉熵是用来计算两个函数或者概率之间的距离,计算的方式也是使用的KL Divergence
理解交叉熵作为神经网络的损失函数的意义:
交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近,即拟合的更好。
CrossEntropy=H(p)+DKL(p∣∣q)CrossEntropy=H(p)+DKL(p∣∣q) Cross Entropy= H(p)+DKL(p||q)CrossEntropy=H(p)+DKL(p∣∣q)
当p分布是已知,则熵是常量;于是交叉熵和KL散度则是等价的。
最小化KL散度和模型采用最大似然估计进行参数估计又是一致的。(可以从公式推导上证明)
这也是很多模型又采用最大似然估计作为损失函数的原因。