熵、交叉熵、KL散度、JS散度 一、信息量 事件发生的可能性大,信息量少;事件发生的可能性小,其信息量大。 即一条信息的信息量大小和它的不确定性有直接的关系,比如说现在在下雨,然后有个憨憨跟你说今天有雨,这对你了解获取天气的信息没有任何用处。但是有人跟你说明天可能也下雨,这条信息就比前一条的信息量大。可以看出信息量的大小与事件发生的可能性成反比。 \[ \begin{align} p\left(x\right) &= Pr(X=x),x \in \chi \notag \\ I(x) &= - \log(p(x)) \tag{1} \end{align} \] \(I(x)\) 称为随机变量X的自信息,描述的是随机变量的某个事件(X = \(x\) )发生所带来的信息量。这里可以稍微理解一下为什么使用 \(log\) :例如两个相互独立的事件 \(x,y\) ,因为两者相互独立所以两个事件带来的信息量为 \(I(x)+I(y)\) ,而两个事件同时发生的概率是 \(p(x,y) = p(x)p(y)\) 。 \(log\) 函数就满足这两个式子,其中 \(log\) 的基数可以任意,常用的是2(二进制编码), \(e\) 。 二、熵 从信息量的公式可以看出,当一个事件的发生概率为 \(p(x)\) 时,它的信息量就是 \(-log(p(x))\)