这篇博客来介绍熵,互信息,鉴别信息的凸性,与优化有着重要的关系。
凸集(Convex Set)
凸集:在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内的集合。
凸集有:实数,概率矢量集合等。整数,有理数等不是凸集。
想要研究凸函数,首先凸函数一定要定义在凸集上。而概率矢量集合为凸集,是一个好消息。
凸函数有个坑。就是中国教材总是叫凸函数和凹函数,但是实际上中国的凸函数,是有最大值的函数,而非国外的convex function(最小值)。另外一种比较好的叫法是上凸和下凸,这个就容易区分了,上凸函数有最大值,下凸函数有最小值。
严格的数学定义:
- 定义在凸集D上的函数$f(x)$如果满足$f(lambda alpha + (1-lambda)beta) leq lambda f(alpha) + (1-lambda) f(beta)$,则为下凸函数。
- 定义在凸集D上的函数f(x)如果满足$f(lambda alpha + (1-lambda)beta) geq lambda f(alpha) + (1-lambda) f(beta)$,则为上凸函数。
Jenson不等式
如果f是下凸函数,且X是离散随机变量,则$Ef(X)geq f(EX)$,并且如果f是严格下凸函数,则上式中等号说明X为常数,及X与EX以概率1相等。(其中E为平均取值)。
由Jenson不等式可以推出对数求和不等式:
对于非负实数$a_1,a_2,…,a_n;b_1,b_2,…,b_n$有
这个式子的证明如下:
首先,当$t>0$时,$t log t$为一个严格下凸函数.可自行用导数证明。
由Jenson不等式可以得到:
令$alpha _i = frac {b_i}{B},t_i=frac {a_i}{b_i}, B = sum_{b_i}$,代入上式可以得到:
在这里要学会如何构造去证明这个不等式。
凸性
鉴别信息的凸性
$D(pVert q)$是$(p,q)$的下凸函数。即若存在$(p_1,q_1)$和$(p_2,q_2)$,则
上式对所有的$0leq lambda leq 1$成立。
证明如下:
可以看到上式的证明利用到了之前的对数求和不等式。
熵的凸性
知道了鉴别信息的下凸性质,证明熵的凸性就非常容易。
$H(X) = log |X| - D(pVert u)$
上式中,u不变,是均匀分布的情况,这时候D是一个下凸函数,而很明显$log |X|$不变,因此$H(X)$是一个上凸函数。其实大家也很容易理解。因为均匀分布式的熵最大,也就是有最大值。
互信息的凸性
下面来证明互信息的凸性。
互信息定义为下:
这样的写法,对于信道传输的模型更有帮助。
首先如果给定Q,这意味着给定了信道:
Fix $Q =[q(y|x)]$
上式中既然Q已经给定,因此H(Y|X)也就是p(x)线性组合。因此整个函数为上凸减去线性,依然为上凸函数。
如果给定p:
Fix $p(x)$:
因此p(x,y),p(y),p(x)p(y)都是q(y|x)的线性组合。而D本身是下凸函数。所以互信息固定p(x)时候为下凸函数。可用于有失真编码。