交叉熵

交叉熵 相对熵

人走茶凉 提交于 2020-03-17 08:34:17
交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。 1 信息量 假设 X X是一个离散型随机变量,其取值集合为 χ χ,概率分布函数 p ( x ) = P r ( X = x ) , x ∈ χ p(x)=Pr(X=x),x∈χ,则定义事件 X = x 0 X=x0的信息量为: I ( x 0 ) = − l o g ( p ( x 0 ) ) I(x0)=−log(p(x0)) 由于是概率所以 p ( x 0 ) p(x0)的取值范围是 [ 0 , 1 ] [0,1],绘制为图形如下: 可见该函数符合我们对信息量的直觉 2 熵 考虑另一个问题,对于某个事件,有 n n种可能性,每一种可能性都有一个概率 p ( x i ) p(xi) 这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量 序号 事件 概率p 信息量I A 电脑正常开机 0.7 -log(p(A))=0.36 B 电脑无法开机 0.2 -log(p(B))=1.61 C 电脑爆炸了 0.1 -log(p(C))=2.30 注:文中的对数均为自然对数 我们现在有了信息量的定义,而熵用来表示所有信息量的期望,即: H ( X ) = − ∑ i = 1 n p ( x i ) l o

深度学习(十八)——交叉熵

馋奶兔 提交于 2020-03-05 20:31:39
交叉熵(Cross Entropy Loss)也是一种loss 香农定理: 用概率决定信息量,公式的意义:比如:买彩票,中100万奖概率小,一旦你中奖了,这个信息量就很大了;但你花10块钱买了一袋零食,本来概率就是100%,这个信息量就很小,由概率决定信息量, 两者呈反比 。 所以,如果4分类,每个分类出来的概率都是25%,不确定性很高,即求出的E(熵)就很大,可以用作loss。 KL代表散度 来源: CSDN 作者: Da小伙儿 链接: https://blog.csdn.net/weixin_43633568/article/details/104672514

通俗的解释交叉熵与相对熵

拥有回忆 提交于 2020-02-21 03:57:07
参考 信息熵是什么? 交叉熵损失函数原理详解 信息可以量化? 信息熵,信息熵,怎么看怎么觉得这个 “熵” 字不顺眼,那就先不看。我们起码知道这个概念跟信息有关系。而它又是个数学模型里面的概念,一般而言是可以量化的。所以,第一个问题来了:信息是不是可以量化? 起码直觉上而言是可以的,不然怎么可能我们觉得有些人说的废话特别多,“没什么信息量”,有些人一语中的,一句话就传达了很大的信息量。 为什么有的信息量大有的信息量小? 有些事情本来不是很确定,例如明天股票是涨还是跌。如果你告诉我明天 NBA 决赛开始了,这两者似乎没啥关系啊,所以你的信息对明天股票是涨是跌带来的信息量很少。但是假如 NBA 决赛一开始,大家都不关注股票了没人坐庄股票有 99% 的概率会跌,那你这句话信息量就很大,因为本来不确定的事情变得十分确定。 而有些事情本来就很确定了,例如太阳从东边升起,你再告诉我一百遍太阳从东边升起,你的话还是丝毫没有信息量的,因为这事情不能更确定了。 所以说 信息量的大小跟事情不确定性的变化有关 。 那么,不确定性的变化跟什么有关呢? 一,跟事情的可能结果的数量有关;二,跟概率有关。 先说一。 例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。 当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。 二,单看可能结果数量不够

(KWS-LSTM)Max-pooling loss training of long short-term memory networks for small-footprint KWS

大憨熊 提交于 2020-02-20 11:36:41
会议:2016 IEEE口语技术研讨会(SLT) 论文: Max-pooling loss training of long short-term memory networks for small-footprint keyword spotting 作者: Ming Ming,Anirudh Raju,George Tucker,Sankaran Panchapagesan,Gengshen Fu,Arindam Mandal,Spyros Matsoukas,Nikko Strom,Shiv Vitaladevuni Abstract 我们提出了一种基于最大池的损失函数,用于训练长短期内存(LSTM)网络以实现占用空间少的关键字发现(KWS),低CPU,内存和延迟要求。可以通过使用交叉熵损失训练网络进行初始化来进一步指导最大池损失训练。采用基于后验平滑的评估方法来衡量关键字发现效果。我们的实验结果表明,使用交叉熵损失或最大池损失训练的LSTM模型优于交叉熵损失训练的基线前馈深度神经网络(DNN)。此外,与经过交叉熵损失训练的LSTM相比,具有随机初始化网络的最大池损失训练的LSTM性能更好。最后,通过交叉熵预训练网络初始化的经过最大池损耗训练的LSTM显示了最佳性能, Introduction 数十年来,关键字搜寻一直是活跃的研究领域

损失函数 - 交叉熵损失函数

混江龙づ霸主 提交于 2020-02-09 21:08:45
https://zhuanlan.zhihu.com/p/35709485 【学习过程】 交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,此外,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。 我们用神经网络最后一层输出的情况,来看一眼整个模型预测、获得损失和学习的流程: 神经网络最后一层得到每个类别的得分scores; 该得分经过sigmoid(或softmax)函数获得概率输出; 模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。 来源: https://www.cnblogs.com/pengwang52/p/12288518.html

1.Deep learning AlexNet (1)

僤鯓⒐⒋嵵緔 提交于 2020-02-07 11:36:33
NIPS (神经信息处理系统进展大会) 读哪些东西? 论文背景 成果及其意义 未来的研究趋势 Auto L 自动的设计网络结构 softmax 可以将数值变成概率分布 再与 label 交叉熵 softmax 可以将负数变为正数 加起来概率和为1 交叉熵数值越大说明越不接近。。。 fc8 未归一化的概率分布。。。 第一个计算公式 除不尽的时候进行下取整 第二和第三个 除不尽的时候上取整 F为特征图的尺寸 k卷积核尺寸 卷积核通道数 Kc Foc 输出特征图的通道数 输入图片大小为 227 227 3 包含了96个大小为 11*11通道数为3的卷积核 卷积核的通道数等于输入map的通道数 所以是3 方式为valid parameters =(卷积核尺寸 * 卷积核通道 *+ 1) * 特征图通道数 因为之前GPU性能不够 所以分开来进行处理, 再将其进行了 合并操作 concate Alexnet应为包含了很多权重参数因此很容易过拟合 所以训练的时候采用了数据增强处理 来源: CSDN 作者: hzzDeeplearning 链接: https://blog.csdn.net/weixin_44400401/article/details/104031192

深度学习如何处理信息实现智慧之信息熵、相对熵、交叉熵等

谁说胖子不能爱 提交于 2020-01-25 01:19:48
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,后经管理人员调查研究发现,这种现象出现在年轻的父亲身上,父亲在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加。 如今,“啤酒+尿布”的大数据挖掘分析成果早已成了大数据技术应用的经典案例,被人津津乐道。啤酒尿布这一看似可笑的现象之所以能被发现,正是“大数据”惊人威力的体现。 今天,大量数据、大量信息充斥我的日常生活和工作中,仿佛生活在数据和信息的海洋中,各类信息严重影响了我们的生活,碎片、垃圾、过时信息耗费了我们宝贵时间,最后可留在我们大脑中的知识少之又少,如何提高有效信息转化率、加快知识积累,更高效的创新,成为我们信息化社会、智慧企业新课题。 信息化社会、智慧企业构成如上图的金字塔模型,基础是数据,通过信息化技术进行数字化;第二层是信息,通过流程上下文,对数据处理;第三层是知识,对信息分类、分层次、归纳梳理;最后,顶端形成人工智能,实现决策支持。 智慧是指人工智能,人工智能是系统基于数据、信息和知识,形成类似于人脑的思维能力(包括学习、推理、决策等)。 知识是对信息的总结和提炼

理解熵,交叉熵和交叉熵损失

夙愿已清 提交于 2020-01-23 01:02:24
交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时,我很难理解它背后的直觉。在google了不同材料后,我能够得到一个令人满意的理解,我想在这篇文章中分享它。 为了全面理解,我们需要按照以下顺序理解概念:自信息, 熵,交叉熵和交叉熵损失 自信息 "你对结果感到惊讶的程度" 一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果$y_i$是第i个结果的概率,那么我们可以把自信息s表示为: 熵 现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果应该发生的概率。自信息的加权平均值就是熵(e),如果有n个结果,则可以写成: 交叉熵 现在,如果每个结果的实际概率为$p i$却有人将概率估计为$q i$怎么办。在这种情况下,每个事件都将以$p i$的概率发生,但是公式里的自信息就要改成$q i$(因为人们以为结果的概率是$q_i$)。现在,在这种情况下,加权平均自信息就变为了交叉熵c,它可以写成: 交叉熵总是大于熵,并且仅在以下情况下才与熵相同 $p i=q i$,你可以观看https://www.desmos.com/calculator

交叉熵损失函数

假装没事ソ 提交于 2020-01-16 08:26:18
在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念 信息熵 信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小 公式如下: H ( X ) = − ∑ i = 1 n P ( x ( i ) ) l o g P ( x ( i ) ) H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)}) H ( X ) = − i = 1 ∑ n ​ P ( x ( i ) ) l o g P ( x ( i ) ) 其中, − l o g P ( x ( i ) ) -logP(x^{(i)}) − l o g P ( x ( i ) ) 表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的 交叉熵损失函数 先给出公式: L ( y ^ , y ) = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)] L ( y ^ ​ , y ) = − [ y l o g y ^ ​ + ( 1 − y ) l o g ( 1 − y ^ ​ ) ]

信息论相关概念:熵 交叉熵 KL散度 JS散度

不羁岁月 提交于 2020-01-07 22:58:09
目录 机器学习基础--信息论相关概念总结以及理解 1. 信息量 2. KL散度 机器学习基础--信息论相关概念总结以及理解 摘要: 熵(entropy)、KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)以及JS散度,在深度学习以及机器学习很多地方都用的到,尤其是对于目标函数和损失函数的定义。在逻辑回归问题中,目标函数就是用交叉熵定义的。 1. 信息量 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。信息论的基本想法是一个不太可能的事件发生了,要比一个非常可能的事件发生,能提供更多的信息。 事件发生的可能性大,信息量少;事件发生的可能性小,其信息量大。 比如:早上你出门碰到一个朋友,他告诉你今天是晴天,这句话的信息量就很小,因为天气你已经知道了,而且是个确定性事件,等同于废话。 要是他再告诉你,明天可能下雪,这句话的信息量就比刚刚的话要大好多。 可以看出信息量的大小与事件发生的可能性成反比。 非常可能发生的事件信息量要比较少。在极端情况下,确保能够发生的事件应该没有信息量。 较不可能发生的事件具有更高的信息量。 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。   为了满足上面 3 个性质,定义了一事件 x=X 的自信息(self