交叉熵似然函数
信息熵
- 信息熵是消除不确定性所需信息量的度量
- 信息熵是信息的不确定程度
- 信息熵越小,信息越确定
- \(信息熵=\sum\limits_{x=1}^n(信息x发生的概率\times{验证信息x所需信息量})\)
- 今年中国取消高考了,这句话我们很不确定(甚至心里还觉得这TM是扯淡),那我们就要去查证了,这样就需要很多信息量(去查证);反之如果说今年正常高考,大家回想:这很正常啊,不怎么需要查证,这样需要的信息量就很小。
- 根据信息的真实分布,我们能够找到一个最优策略,以最小的代价消除系统的不确定性,即最小信息熵
- 概率越低,需要越多的信息去验证,所以验证真假需要的信息量和概率成反比。我们需要用数学表达式把它描述出来,推导:
考虑一个离散的随机变量
怎么寻找呢?如果我们有两个不相关的事件
因为两个事件是独立不相关的,因此
根据这两个关系,很容易看出
由对数的运算法则可知:
因此,我们有
其中负号是用来保证信息量是正数或者零。而