交叉熵和极大似然
交叉熵是用来计算两个函数或者概率之间的距离,计算的方式也是使用的KL Divergence 理解交叉熵作为神经网络的损失函数的意义: 交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近,即拟合的更好。 CrossEntropy=H(p)+DKL(p∣∣q)CrossEntropy=H(p)+DKL(p∣∣q) Cross Entropy= H(p)+DKL(p||q)CrossEntropy=H(p)+DKL(p∣∣q) 当p分布是已知,则熵是常量;于是交叉熵和KL散度则是等价的。 最小化KL散度和模型采用最大似然估计进行参数估计又是一致的。(可以从公式推导上证明) 这也是很多模型又采用最大似然估计作为损失函数的原因。 来源: https://www.cnblogs.com/ivyharding/p/11391008.html