信息论和数理统计——机器学习基础
目录 一、信息论 熵 信源 信息量 信息熵 条件熵 信息增益 信息增益比 相对熵 最大熵原理 二、数理统计 与概率论的区别 统计推断方式一:参数估计 统计推断方式二:假设检验 一、信息论 信息论处理的是客观世界中的不确定性。 通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。在生活中,信息的载体是消息。 不同的消息带来的信息在直观感觉上不是完全相同的,比如“马云获得奥赛健美冠军”比“施瓦辛格获得奥赛健美冠军”的信息要大得多。 因为前者是小概率事件,而后者我们已经习以为常。不确定性越大的消息提供的信息量越大。 熵 一个系统内在的混乱程度 信源 产生消息(符号)、消息序列和连续消息的来源。 信息量 信息多少的量度 在信息论中,如果事件A发生的概率为 \(p(A)\) ,则这个事件的自信息量定义为 \(h(A)=−log_2p(A)\) 比如:当 \(p(A\) )为1/1000得出信息量约为10,当 \(p(A)\) 为1/2得出的信息量约为1 信息熵 信息熵是信源可能发出的各个符号的自信息量在信源构成的概率空间上的统计平均值。 根据单个事件的自信息量可以计算包含各个符号的信源的信息熵 如果一个离散信源X包含n个符号,每个符号 \(a_i\) 的取值为 \(p(a_i)\) ,则X的信源熵为 \(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)