信息论

深度学习中的信息论

自作多情 提交于 2020-04-06 02:20:34
本文首发自公众号: RAIS ,期待你的关注。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。 ​信息论 信息论是数学上一个分支,非常重要,包括你能看到这篇文章信息的传输信息论在其中都发挥了极其重要的作用,我就不赘述了,我们还是讨论更学术更专业性的知识。 量化信息 非常可能的事情包含较少的信息; 较不可能的事情包含更高的信息; 独立的事件具有增量的信息。 自信息 香农熵 本是热力学中的概念,被香农引入到信息论中,因此也被称为信息熵或香农熵。不准确点说,熵是用来衡量混乱程度的。越混乱,熵越大,要弄清楚情况所需要的信息越多。 其中 P 为 X 的概率质量函数,上一篇文章中介绍过。其中的 b 不同时对应的结果单位不同(机器学习中,用自然对数 e 为底,单位为 奈特 )。对于连续变量则被称为 微分熵 。 相对熵 也叫 KL 散度,具有非负的特性。可以用来衡量两个分布之间的差异,用 p 分布近似 q 的分布,相对熵可以计算这个中间的损失,但是不对称(p 对 q 和 q 对 p 不相等),因此不能表示两个分布之间的距离。 交叉熵 用来度量两个概率分布之间的差异。从下面的公式可以看出,因为 H(p) 不变,因此交叉熵的变化可以反映出相对熵的变化,在机器学习或神经网络中,就可以用交叉熵来作为损失函数(不必用相对熵)。 结构化概率模型

信息论和数理统计——机器学习基础

Deadly 提交于 2020-03-26 18:11:44
目录 一、信息论 熵 信源 信息量 信息熵 条件熵 信息增益 信息增益比 相对熵 最大熵原理 二、数理统计 与概率论的区别 统计推断方式一:参数估计 统计推断方式二:假设检验 一、信息论 信息论处理的是客观世界中的不确定性。 通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。在生活中,信息的载体是消息。 不同的消息带来的信息在直观感觉上不是完全相同的,比如“马云获得奥赛健美冠军”比“施瓦辛格获得奥赛健美冠军”的信息要大得多。 因为前者是小概率事件,而后者我们已经习以为常。不确定性越大的消息提供的信息量越大。 熵 一个系统内在的混乱程度 信源 产生消息(符号)、消息序列和连续消息的来源。 信息量 信息多少的量度 在信息论中,如果事件A发生的概率为 \(p(A)\) ,则这个事件的自信息量定义为 \(h(A)=−log_2p(A)\) 比如:当 \(p(A\) )为1/1000得出信息量约为10,当 \(p(A)\) 为1/2得出的信息量约为1 信息熵 信息熵是信源可能发出的各个符号的自信息量在信源构成的概率空间上的统计平均值。 根据单个事件的自信息量可以计算包含各个符号的信源的信息熵 如果一个离散信源X包含n个符号,每个符号 \(a_i\) 的取值为 \(p(a_i)\) ,则X的信源熵为 \(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)

今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介

ⅰ亾dé卋堺 提交于 2020-01-30 06:25:16
今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介 前面有朋友说写的东西太理论了,我想说我并不是在和很多其他博客一样做topic的入门介绍,配合很多示意图之类;而是在记录PRML这本经典教科书的内容。如果想好好学Pattern Recognition and Machine Learning,建议花半年时间看一本国外经典。(前面忙实验室的任务写的太慢了,这本书要吃透是要花点时间。)章节1.3-1.5都是介绍性质的,我先不写了后面有时间再补。 信息论,不用多说,在很多领域都得到了应用,应该算是一个相对成熟的主题。PRML这一节里将介绍信息论的一些基本概念,主要是为了明白这些概念是怎么来的(如gain,entropy),代表什么含义。在书里没有具体的应用结合,后面可以单独简介一节关于决策树的方法,需要的信息论知识基本在这一节里面可以覆盖到。 章节1.6 Information Theory 直观的一种理解,当我们听到一个不太可能发生的事件时我们所接收的信息量要比听到一件习以为常的事件所接收的信息量大,如果我们听到了一件必然发生的事情那么我们接收到的信息就是0。让我们考察对于一个 离散随机变量 x,类似的出现那些概率很低的x取值时我们得到的信息量要大。 通过上面的解释,首先

机器学习之信息论

佐手、 提交于 2020-01-25 18:25:48
条件熵: 信息熵是对观测过程中变量的不确定性的度量,基本公式为: 当X服从均匀分布时,H(x)取得最大值,这也符合感性认识。 从公式可以看出,这是一个熵值的期望,约束为随机变量X,可理解为X约束下对H(Y)的影响,因此这种信息熵被记为H(Y|X)。 信息增益: 有上述公式,感性上容易得出H(Y)大于等于H(Y|X),因为提供了X的信息,Y的熵值应该变小或者不变,因此有信息增益: G越大,表示A提供的信息很有用,以至于H(D|A)的不确定性接近0(完全确定) G越小,表示A提供的信息没什么用 因此可以用G来衡量变量A对D的影响,G越大越好,另外可以将A的熵值考虑到G中,有: 比如G(D,A)和G(D,B)相等,但A的熵值更小,表示A本身比较确定的情况下,对D的影响更大,因此A对D比B对D更有影响。 基尼指数: 基尼指数与信息熵类似,也是对比变量不确定性的度量,在变量A的影响下,D的基尼指数为: 这里Gini(D,A)应该是越小越好,表示在A的约束下,D的不确定变得很小。 来源: CSDN 作者: 厉害了我的汤 链接: https://blog.csdn.net/YD_2016/article/details/104039251

熵?物理学四大神兽之一,麦克斯韦妖?信息量?

丶灬走出姿态 提交于 2020-01-23 21:35:17
1.什么是熵?   说到熵,他很有很多种的定义,但也都大同小异,在这里给出一种通俗的解释——熵,是对 混乱程度 、 不确定程度 的度量。熵越大,混乱程度、不确定程度越高。   笔者将从物理学上的熵、信息论中的熵来剖析熵的概念,这其中会有一些很有意思的案例,仔细往后看哦~ 2.物理学上的熵 2.1热力学第二定律   我们熟识的热力学第二定律: 不可能把热量从低温物体传递到高温物体而不产生其他影响 。   有这样一个例子:一个水杯,中间由 隔板 隔开(两边除温度外,其他都一样)。左边40℃,右边60℃,不考虑其他环境影响,将隔板拿开,水的最终温度大概是50℃。这个很好理解吧。但是,你有没有想过隔板拿开之后,为什么不是左边20℃,右边80℃呢?   其实,热力学第二定律最初就是为了描述这个现象的。再来看这个水杯,从一种状态变成了另一种状态,人们为了定量描述这两种状态的区别,人们就 引入了熵的概念 。一个系统可以自发的从一个状态到另一个状态,一定是因为某种物理量,什么物理量呢?那就是熵。第一种状态的熵值更低(更有序),第二种状态的熵值更高(更混乱)。就是说,一个 孤立系统 ,从一种状态转换成另一种状态, 熵不会减少 。这是热力学第二定律的一种表示方法,叫 熵增定律 。   熵增定律很重要,一个孤立系统,熵大概率是增大的。一个孤立系统的熵不可能减少。仔细想想下面的问题?  

信息论-熵-随机变量-泛函

别等时光非礼了梦想. 提交于 2020-01-09 02:54:03
一. 熵的定义: 原始熵的定义:克劳修斯(T.Clausius) 于1854年提出熵(entropie)的概念, 我国物理学家胡刚复教授于1923年根据热温商之意首次把entropie译为“熵”。熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。统计热力学: 熵的大小与体系的微观状态Ω有关,即S=klnΩ,其中k为玻尔兹曼常量,k=1.3807x10 -23J·K -1。体系微观状态Ω是 大量质点的体系经统计规律而得到的热力学概率 ,因此熵有统计意义,对只有几个、几十或几百分子的体系就无所谓熵。   信息熵:1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。   离散信号的信息熵:信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E)

信息论相关概念:熵 交叉熵 KL散度 JS散度

不羁岁月 提交于 2020-01-07 22:58:09
目录 机器学习基础--信息论相关概念总结以及理解 1. 信息量 2. KL散度 机器学习基础--信息论相关概念总结以及理解 摘要: 熵(entropy)、KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)以及JS散度,在深度学习以及机器学习很多地方都用的到,尤其是对于目标函数和损失函数的定义。在逻辑回归问题中,目标函数就是用交叉熵定义的。 1. 信息量 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。信息论的基本想法是一个不太可能的事件发生了,要比一个非常可能的事件发生,能提供更多的信息。 事件发生的可能性大,信息量少;事件发生的可能性小,其信息量大。 比如:早上你出门碰到一个朋友,他告诉你今天是晴天,这句话的信息量就很小,因为天气你已经知道了,而且是个确定性事件,等同于废话。 要是他再告诉你,明天可能下雪,这句话的信息量就比刚刚的话要大好多。 可以看出信息量的大小与事件发生的可能性成反比。 非常可能发生的事件信息量要比较少。在极端情况下,确保能够发生的事件应该没有信息量。 较不可能发生的事件具有更高的信息量。 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。   为了满足上面 3 个性质,定义了一事件 x=X 的自信息(self

最大似然估计和信息论简介

拟墨画扇 提交于 2019-12-23 01:10:45
文章目录 1.数理统计 数理统计基本知识 最大似然估计 最大似然估计(离散) 最大似然估计(连续) 最大似然估计举例 最大似然估计-多元 0-1分布 最大似然 2.线性回归与逻辑回归 再看线性回归 逻辑回归 特别说明 3.贝叶斯的观点 再看贝叶斯公式 二项分布 Beta分布 贝叶斯估计举例 4.信息论概述 量化信息 离散 连续 KL散度(相对熵) 1.数理统计 数理统计基本知识 最大似然估计 最大似然估计(离散) 最大似然估计(连续) 最大似然估计举例 最大似然估计-多元 0-1分布 最大似然 2.线性回归与逻辑回归 再看线性回归 逻辑回归 特别说明 3.贝叶斯的观点 再看贝叶斯公式 二项分布 Beta分布 贝叶斯估计举例 4.信息论概述 量化信息 离散 连续 KL散度(相对熵) 来源: CSDN 作者: LotusQ 链接: https://blog.csdn.net/qq_30057549/article/details/103655398

从信息论谈数字孪生系统的大行其道

强颜欢笑 提交于 2019-12-11 13:35:52
  ICT圈子里的人,尤其是学通信的,多多少少都会听说过“信息论”这个词。美国数学家香农于上世纪40年代创建了这个关于信息转换和传输的理论体系。得益于信息论,我们今天才能够方便地使用电子设备进行远程沟通和协作。   那么,信息论这样一个充满数学公式的抽象理论体系跟数字孪生这样一个以呈现为主的应用领域有关系吗?答案是:有。并且,按照信息论中的术语来说,绝对是互信息高,强相关性的两个事物。   自从接触数字孪生以来,有个问题一直困扰着我,就是我们的客户甚至于一些刚入行的同事,都认为 数字孪生系统 除了界面美观和效果炫酷以外,好像没什么更大的用处,一言蔽之:花瓶!而接触过一段时间后,想法改变了,认为数字孪生系统好像有点用处,但是又说不出个所以然来,也只好反反复复地用一些车轱辘话来向客户解释,我们的系统直观易懂,能反应最新的高科技和前卫思想,领导们都很喜欢云云。很多客户一听,是这么回事,既然“我爱学习,学习让我妈快乐”是真理,那么“我买数字孪生,数字孪生让领导开心”必然也不差啊。   于是乎,优锘科技的软件销量一直还不错。   作为一家有情怀的公司,我们从来没有放弃正本清源的信念,而是期望通过理论,尤其是那些被数学严格证明的理论,来解释数字孪生系统存在的科学原理。很巧的是,前段时间刚好读了一些关于信息论的资料,这些资料写得浅显易懂,让资质愚钝的我也能大概了解了其中的部分内容。今天这篇短文

机器学习之相对熵、交叉熵(为什么交叉熵可以作为损失函数)

回眸只為那壹抹淺笑 提交于 2019-12-10 15:58:10
文章目录 自信息 信息熵 相对熵(KL散度) 交叉熵 为什么交叉熵可以作为损失函数 参考文章 自信息   信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能够提供发更多的信息。消息说:“今天早上太阳升起”,信息量是如此少,以至于没有必要发送;但一条消息说:“今天早上有日食”,信息量就很丰富。   一条信息的信息量大小和它的不确定性有直接的关系,我们可以认为, 信息量的度量就等于不确定性的多少 。使用 自信息 来量化 信息量 : I ( x ) = − l o g P ( x ) I(x)=-logP(x) I ( x ) = − l o g P ( x )    l o g log l o g 函数基的选择是任意的,信息论中基常常选择为2,因此信息的单位为比特(bit);而机器学习中基常常选择为自然常数,因此单位常常被称为奈特(nats)。 信息熵   使用信息熵对整个 概率分布 中的 不确定性总量 进行量化: H ( X ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(X)=E_{x\sim P}[I(x)]=-E_{x\sim P}[logP(x)] H ( X ) = E x ∼ P ​ [ I ( x ) ] = − E x ∼ P ​ [ l o g P ( x ) ]