交叉熵 相对熵
交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。 1 信息量 假设 X X是一个离散型随机变量,其取值集合为 χ χ,概率分布函数 p ( x ) = P r ( X = x ) , x ∈ χ p(x)=Pr(X=x),x∈χ,则定义事件 X = x 0 X=x0的信息量为: I ( x 0 ) = − l o g ( p ( x 0 ) ) I(x0)=−log(p(x0)) 由于是概率所以 p ( x 0 ) p(x0)的取值范围是 [ 0 , 1 ] [0,1],绘制为图形如下: 可见该函数符合我们对信息量的直觉 2 熵 考虑另一个问题,对于某个事件,有 n n种可能性,每一种可能性都有一个概率 p ( x i ) p(xi) 这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量 序号 事件 概率p 信息量I A 电脑正常开机 0.7 -log(p(A))=0.36 B 电脑无法开机 0.2 -log(p(B))=1.61 C 电脑爆炸了 0.1 -log(p(C))=2.30 注:文中的对数均为自然对数 我们现在有了信息量的定义,而熵用来表示所有信息量的期望,即: H ( X ) = − ∑ i = 1 n p ( x i ) l o