交叉熵损失函数

损失函数 - 交叉熵损失函数

混江龙づ霸主 提交于 2020-02-09 21:08:45
https://zhuanlan.zhihu.com/p/35709485 【学习过程】 交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,此外,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。 我们用神经网络最后一层输出的情况,来看一眼整个模型预测、获得损失和学习的流程: 神经网络最后一层得到每个类别的得分scores; 该得分经过sigmoid(或softmax)函数获得概率输出; 模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。 来源: https://www.cnblogs.com/pengwang52/p/12288518.html

交叉熵损失函数

假装没事ソ 提交于 2020-01-16 08:26:18
在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念 信息熵 信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小 公式如下: H ( X ) = − ∑ i = 1 n P ( x ( i ) ) l o g P ( x ( i ) ) H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)}) H ( X ) = − i = 1 ∑ n ​ P ( x ( i ) ) l o g P ( x ( i ) ) 其中, − l o g P ( x ( i ) ) -logP(x^{(i)}) − l o g P ( x ( i ) ) 表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的 交叉熵损失函数 先给出公式: L ( y ^ , y ) = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)] L ( y ^ ​ , y ) = − [ y l o g y ^ ​ + ( 1 − y ) l o g ( 1 − y ^ ​ ) ]

损失函数理解:MSE和 Cross Entropy Error

╄→尐↘猪︶ㄣ 提交于 2020-01-01 21:15:31
损失函数与代价函数 :目前理解是损失函数就是代价函数,且在损失函数的基础上进行梯度下降,找到最优解。 损失函数 :根据目标模型的不同,会分为回归损失函数,逻辑回归分类损失。 MSE损失函数:度量特征图之间的距离,目标是提取特征图推理一致性。平均平方误差(mean square error)。MAE损失函数与之会有差异,mean absolute error,思想是这一类。 交叉熵损失函数: 交叉熵由真实分布编码长度的期望演变而来(参考 https://www.cnblogs.com/ljy2013/p/6432269.html ),交叉熵(cross entropy error)是衡量两个概率分布p,q之间的相似性。这在特征工程中,用来衡量变量的重要性。 所以交叉熵常用于分类。表达式是 类别✖️相应的概率表达。其他分类损失函数如0-1损失函数,变形联立后用交叉熵表达就是交叉熵损失函数。 来源: https://www.cnblogs.com/xiaoheizi-12345/p/12129947.html

交叉熵损失函数和均方误差损失函数

泪湿孤枕 提交于 2019-12-21 20:11:08
交叉熵 分类问题中,预测结果是(或可以转化成)输入样本属于n个不同分类的对应概率。比如对于一个4分类问题,期望输出应该为 g0=[0,1,0,0] ,实际输出为 g1=[0.2,0.4,0.4,0] ,计算g1与g0之间的差异所使用的方法,就是损失函数,分类问题中常用损失函数是交叉熵。 交叉熵( cross entropy )描述的是两个概率分布之间的距离,距离越小表示这两个概率越相近,越大表示两个概率差异越大。对于两个概率分布 p 和 q ,使用 q 来表示 p 的交叉熵为: 由公式可以看出来,p 与 q 之间的交叉熵 和 q 与 p 之间的交叉熵不是等价的。上式表示的物理意义是使用概率分布 q 来表示概率分布 p 的困难程序,q 是预测值,p 是期望值。 神经网络的输出,也就是前向传播的输出可以通过Softmax回归变成概率分布 ,之后就可以使用交叉熵函数计算损失了。 交叉熵一般会跟Softmax一起使用,在tf中对这两个函数做了封装,就是 tf.nn.softmax_cross_entropy_with_logits 函数,可以直接计算神经网络的交叉熵损失。 cross_entropy = tf.nn.softmax_cross_entropy_with_logits(y, y_) 其中 y 是网络的输出,y_ 是期望输出。 针对分类任务中,正确答案往往只有一个的情况

一文搞懂交叉熵损失

痞子三分冷 提交于 2019-12-20 06:12:42
本文从信息论和最大似然估计得角度推导交叉熵作为分类损失函数的依据。 从熵来看交叉熵损失 信息量 信息量来衡量一个事件的不确定性,一个事件发生的概率越大,不确定性越小,则其携带的信息量就越小。 设 \(X\) 是一个离散型随机变量,其取值为集合 \(X = {x_0,x_1,\dots,x_n}\) ,则其概率分布函数为 \(p(x) = Pr(X = x),x \in X\) ,则定义事件 \(X = x_0\) 的信息量为: \[ I(x_0) = -\log(p(x_0)) \] 当 \(p(x_0) = 1\) 时,该事件必定发生,其信息量为0. 熵 熵用来衡量一个系统的混乱程度,代表系统中信息量的总和;熵值越大,表明这个系统的不确定性就越大。 信息量是衡量某个事件的不确定性,而熵是衡量一个系统(所有事件)的不确定性。 熵的计算公式 \[ H(x) = -\sum_{i=1}^np(x_i)\log(p(x_i)) \] 其中, \(p(x_i)\) 为事件 \(X=x_i\) 的概率, \(-log(p(x_i))\) 为事件 \(X=x_i\) 的信息量。 可以看出,熵是信息量的期望值,是一个随机变量(一个系统,事件所有可能性)不确定性的度量。熵值越大,随机变量的取值就越难确定,系统也就越不稳定;熵值越小,随机变量的取值也就越容易确定,系统越稳定。 相对熵

损失函数--KL散度与交叉熵

廉价感情. 提交于 2019-12-06 11:15:22
损失函数 在逻辑回归建立过程中,我们需要一个关于模型参数的可导函数,并且它能够以某种方式衡量模型的效果。这种函数称为损失函数(loss function)。 损失函数越 小 ,则模型的预测效果越 优 。所以我们可以把训练模型问题转化为 最小化损失函数 的问题。 损失函数有多种,此次介绍分类问题最常用的 交叉熵(cross entropy)损失 ,并从 信息论 和 贝叶斯 两种视角阐释交叉熵损失的内涵。 ## 公式请查看 : https://blog.csdn.net/Ambrosedream/article/details/103379183 K-L散度与交叉熵 随机变量 X 有 k 种不同的取值: ,, ​ 。 记 X 的取值 ​ 的概率为p(X= ​ ) ,简写为P( ​ ) . 克劳德 · 香农定义了信息的信息量: ​ 注:其中对数可以以任意合理数为底,如 2、e。使用不同的底数所得到的信息量之间相差一个常系数。 若以2为底,信息量的单位是bit ,I(X= ​ )是X = ​ 这条信息的自信息量(self-information) . 自信息量 I 随着概率 P ( ​ )的图像变化如下: 自信息量背后的含义:信息中事件发生的概率越小,则信息量越大。 举例:假如有人告诉你即将开奖的彩票中奖号码是777777777,这条信息的价值很高,类似事情发生概率极小

损失函数

醉酒当歌 提交于 2019-12-02 02:59:05
损失函数综述 https://zhuanlan.zhihu.com/p/36503849 简单的交叉熵损失函数,你真的懂了吗? https://zhuanlan.zhihu.com/p/38241764 损失函数 - 交叉熵损失函数 https://zhuanlan.zhihu.com/p/35709485 损失函数 - 交叉熵损失函数 https://zhuanlan.zhihu.com/p/35709485 推荐系统遇上深度学习(六十二)-[阿里]电商推荐中的特殊特征蒸馏 https://www.jianshu.com/p/ee06e58e0ea7 来源: https://www.cnblogs.com/pengwang52/p/11727594.html

交叉熵损失函数的优点(转载)

三世轮回 提交于 2019-12-01 15:49:32
利用一些饱和激活函数的如sigmoid激活时,假如利用均方误差损失,那么损失函数向最后一层的权重传递梯度时,梯度公式为 可见梯度与最后一层的激活函数的导数成正比,因此,如果起始输出值比较大,也即激活函数的导数比较小,那么整个梯度幅度更新幅度都比较小,收敛时间很长。若一开始输出值比较小那么更新速度比较好,收敛也快,因此不稳定。且与输出值a与真实值的误差成正比。 再看损失函数改成交叉熵损失时: 此时损失函数对于最后一层权重的梯度不再跟激活函数的导数相关,只跟输出值和真实值的差值成正比,此时收敛较快。又反向传播是连乘的,因此整个权重矩阵的更新都会加快。 另外,多分类交叉熵损失求导更简单,损失仅与正确类别的概率有关。而且损失对于softmax激活层的输入求导很简单。 ———————————————— 版权声明:本文为CSDN博主「无它,唯手熟尔」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/qq_42422981/article/details/90645074 来源: https://www.cnblogs.com/hugh2006/p/11691369.html

deep_learning_cross_entropy

♀尐吖头ヾ 提交于 2019-11-30 16:06:51
交叉熵损失函数 交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式。与二次代价函数相比,它能更有效地促进ANN的训练。在介绍交叉熵代价函数之前,本文先简要介绍二次代价函数,以及其存在的不足。 二次代价函数的不足 ANN的设计目的之一是为了使机器可以像人一样学习知识。人在学习分析新事物时,当发现自己犯的错误越大时,改正的力度就越大。比如投篮:当运动员发现自己的投篮方向离正确方向越远,那么他调整的投篮角度就应该越大,篮球就更容易投进篮筐。同理,我们希望:ANN在训练时,如果预测值与实际值的误差越大,那么在反向传播训练的过程中,各种参数调整的幅度就要更大,从而使训练更快收敛。然而,如果使用二次代价函数训练ANN,看到的实际效果是,如果误差越大,参数调整的幅度可能更小,训练更缓慢。 以一个神经元的二类分类训练为例,进行两次实验(ANN常用的激活函数为sigmoid函数,该实验也采用该函数):输入一个相同的样本数据x=1.0(该样本对应的实际分类y=0);两次实验各自随机初始化参数,从而在各自的第一次前向传播后得到不同的输出值,形成不同的代价(误差): 交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式。与二次代价函数相比