KL散度
from http://blog.csdn.net/ericcchen/article/details/72357411 KL散度( KL divergence ) 全称: Kullback-Leibler Divergence 用途:比较两个概率分布的接近程度 在统计应用中,我们经常需要用一个简单的,近似的概率分布 f ∗ f∗ 来描述 观察数据 D D 或者另一个复杂的概率分布 f f 。这个时候,我们需要一个量来衡量我们选择的近似分布 f ∗ f∗ 相比原分布 f f 究竟损失了多少 信息量 ,这就是KL散度起作用的地方。 熵( entropy ) 想要考察 信息量 的损失,就要先确定一个描述信息量的量纲。 在信息论这门学科中,一个很重要的目标就是量化描述数据中含有多少信息。 为此,提出了 熵 的概念,记作 H H 一个概率分布所对应的 熵 表达如下: H = − ∑ i = 1 N p ( x i ) ⋅ log p ( x i ) H=−∑i=1Np(xi)⋅logp(xi) 如果我们使用 log 2 log2 作为底,熵可以被理解为:我们编码所有信息所需要的最小位数(minimum numbers of bits) 需要注意的是:通过计算熵,我们可以知道信息编码需要的最小位数,却不能确定最佳的数据压缩策略。怎样选择最优数据压缩策略,使得数据存储位数与熵计算的位数相同