损失函数

损失函数Loss Function

可紊 提交于 2020-02-12 04:34:37
简介 损失函数(loss function)或 代价函数 (cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如在统计学和 机器学习中被用于模型的 参数估计 (parameteric estimation) [1] ,在宏观经济学中被用于 风险管理 (risk mangement)和决策 [2] ,在控制理论中被应用于 最优控制理论 (optimal control theory) [3] 。(来自百度百科) 机器通过损失函数进行学习,这是一种评估特定算法对给定数据建模程度的方法。如果预测值与实际结果偏离较远,损失函数会得到一个非常大的值。在一些优化函数的辅助下,损失函数逐渐学会减少预测值的误差。 机器学习的三要素就是:表示,评估和优化。正如我们在《非参数模型》中提到的: 机器学习分为表示、评估和优化。表示指的是将样本空间映射到一个合适的特征空间,一般地,我们更青睐于这样的表示是低维度的,是更加稀疏交互的,同时也希望是相互独立的。而评估指的是模型在数据上表现的量化形式,我们选取合适的函数来表示什么样子的模型是好的,性能度量就是评估。在前两步都完成了以后,最后要做的就是优化,就是对评估函数进行求解,找出最合适的解

损失函数 - 交叉熵损失函数

混江龙づ霸主 提交于 2020-02-09 21:08:45
https://zhuanlan.zhihu.com/p/35709485 【学习过程】 交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,此外,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。 我们用神经网络最后一层输出的情况,来看一眼整个模型预测、获得损失和学习的流程: 神经网络最后一层得到每个类别的得分scores; 该得分经过sigmoid(或softmax)函数获得概率输出; 模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。 来源: https://www.cnblogs.com/pengwang52/p/12288518.html

统计学习方法 李航---第5章 决策树

北城以北 提交于 2020-02-06 04:58:44
第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习 定义5.1 (决策树) : 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。 图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则 可以将决策树看成一个if-then规则的集合,转换成if-then规则的过程:由决策树的根结点到叶结点的每一条路径构建一条规则

2.2 logistic回归损失函数(非常重要,深入理解)

我与影子孤独终老i 提交于 2020-02-03 23:37:00
2.2 logistic回归损失函数(非常重要,深入理解) 上一节当中,为了能够训练logistic回归模型的参数w和b,需要定义一个成本函数 使用logistic回归训练的成本函数 为了让模型通过学习来调整参数,要给出一个含有m和训练样本的训练集 很自然的,希望通过训练集找到参数w和b,来得到自己得输出 对训练集当中的值进行预测,将他写成y^(I)我们希望他会接近于训练集当中的y^(i)的数值 现在来看一下损失函数或者叫做误差函数 他们可以用来衡量算法的运行情况 可以定义损失函数为y^和y的差,或者他们差的平方的一半,结果表明你可能这样做,但是实际当中,大家都不会这么做,因为当你学习这些参数的时候,你会发现之后讨论的优化问题,会变成非凸的,最后会得到很多的局部最优解,梯度下降算法可能找不到最优的全局最优值, 直观理解就是我们定义这个损失函数L,来衡量你的预测输出值y^和y的实际值有多接近,误差平方看起来是一个合理的选择,但是如果用这个的话,梯度下降法就不会很好用, 在logistic回归中,我们会定义一个不同的损失函数,它起着于误差平方相似的作用,这会给我们一个凸的优化问题,他很容易去做优化, 在logistic回归中,我们用的损失函数将会是下面这样的,(非常重要!) 直观的看一下为什么这个函数会起到作用, 记得如果我们使用误差平方越小越好 对于这个logistic回归的损失函数

线性回归中的参数求解---利用损失函数与梯度下降法

狂风中的少年 提交于 2020-02-03 04:43:31
线性回归中的参数求解---利用损失函数与梯度下降法 因为新型流感病毒的原因寒假延长了许多,但是这一点也不妨碍搞科研,,,,这不知网大大都免费开放了。阿弥陀佛,真是让人痛哭流涕。导师前两天给我发了一道题目,问我里面的数据具体是怎么计算的,要我将详细的计算结果写出了。题目如下: 例:示例模型函数: Y=w1x1+w2x2+w3x3 示例训练集: X(x1,x2,x3)=(2,5,3) Y=80 学习速率: =1/35(人为设置) 求解w1,w2,w3就是利用损失函数和梯度下降法的知识即可,之前的博文里面有介绍就不赘述了。 求解w1第一次迭代的具体步骤如下: 随机初始化:w1=50,w2=50,w3=50 计算error(预测值与真实值的误差):(50*2+50*5+50*3)-850=-350 计算w1下降的梯度: w1= = =-20 , 其中 = 计算w1第一次迭代后的值:w1:=w1- w1=50-(-20)=70 其余参数迭代求解过程与w1相同。假设error<0.02是可接受范围内的误差。 整个训练过程中各个参数变化如下表,为了便于阅读,将每次迭代W的变化罗列在表中。 简单迭代过程示意 次数 w1 w2 w3 Error △w1 △w2 △w3 1 50.00 50.00 50.00 350.00 20.00 50.00 30.00 2 70.00 100.00 80.00

统计学习方法笔记

烂漫一生 提交于 2020-02-03 03:33:55
统计学习方法概论 1.1 统计学习 统计学习 (statistics learning): 计算机 基于 数据 构建 概率统计模型 并运用 模型 对 数据 进行 预测与分析 。也称为 统计机器学习 (statistics machine learning)。 统计学习的特点: 以 计算机及网络 为平台,是建立在计算机及网络之上的; 以 数据 为研究对象,是数据驱动的学科; 目的是对 数据 进行 预测与分析 ; 统计学习以 方法 为中心,统计学习方法构建 模型 并应用模型进行预测与分析; 是 概率论、统计学、信息论、计算理论、最优化理论及计算机科学等 多个领域的交叉学科; // 现在我们所说的机器学习,往往是指 统计机器学习 。 统计学习的对象 数据(data) 。 首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。 其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种 数字 、 文字 、 图像 、 视频 、 音频 数据以及它们的组合。 关于数据的基本假设: 同类数据具有一定的统计规律性。 (什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统 计规律性 ,所以可以用 概率统计方法 来进行处理。比如,可以用随机变量描述数据中的特征

L1和L2:损失函数和正则化

a 夏天 提交于 2020-01-29 16:08:52
作为损失函数 L1范数损失函数    L1 范数损失函数 ,也被称之为最小绝对值误差。总的来说,它把目标值$Y_i$与估计值$f(x_i)$的 绝对差值 的总和最小化。 $$S=\sum_{i=1}^n|Y_i-f(x_i)|$$ L2范数损失函数    L2 范数损失函数 ,也被称为最小平方误差,总的来说,它把目标值$Y_i$与估计值$f(x_i)$的 差值的平方和 最小化。 $$S=\sum_{i=1}^n(Y_i-f(x_i))^2$$ L1损失函数 L2损失函数 鲁棒 不是很鲁棒 不稳定性 稳定解 可能多个解 总是一个解    总结一下 :L2范数loss将误差平均化( 如果误差大于1,则误差会放大很多 ),模型的误差会比L1范数来得大,因此模型会对样本更加敏感,这就需要调整模型来最小化误差。如果有个样本是一个异常值,模型就需要调整以适应单个的异常值,这会牺牲许多其他正常的样本,因为这些正常的样本的误差比这单个的异常值的误差小。 作为正则化   我们经常会看见损失函数后面添加一个额外项,一般为 L1-norm , L2-norm ,中文称作 L1正则化 和 L2正则化 ,或者 L1范数 和 L2函数 。   L1正则化和L2正则化可以看做是损失函数的 惩罚项 。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 防止模型过拟合而加在损失函数后面的一项。 L1正规化  

论文笔记(五) C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection

血红的双手。 提交于 2020-01-28 03:08:35
文章目录 论文笔记(五) C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection introduction 问题定义 局部极小问题 平滑和延续方法 Contribution C-MIL方法 子集划分策略 实验结果 论文笔记(五) C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection 这是cvpr2019的oral,还是一篇基于弱监督的目标检测论文。 关于弱监督目标检测的定义在上一篇笔记中已经讲过了 传送门 。与上一篇论文中要缓解的问题一样,即弱监督的损失局部极小问题,但是这篇论文的处理方法更为理论化,而不是对模型架构进行调整。 introduction 问题定义 B B B 表示图片的集合, B i B_i B i ​ 表示第 i i i 张图片。 y = 1 , − 1 y={1, -1} y = 1 , − 1 , y i ∈ y y_i\in y y i ​ ∈ y 表示 B i B_i B i ​ 中是否包含样本。 j ∈ 1 , 2 , . . . , N j\in {1,2,...,N} j ∈ 1 , 2 , . . . , N

深层神经网络小结

风格不统一 提交于 2020-01-27 17:53:48
设计神经网络结构时的两个总体原则——非线性结构和多层结构:深度学习基本上就是深层神经网络的代名词,非线性结构和多层结构是解决复杂问题的必要方法,线性模型和浅层模型具有固有局限性。 对于损失函数:神经网络是一个优化问题,而损失函数刻画了神经网络需要优化的目标。分类问题和回归问题有各自常用的损失函数,实践中又是也需要自己设计更加贴近实际问题需求的损失函数。不同损失函数对神经网络参数优化结果的影响不同。 关于神经网络的优化:优化神经网络时最常用的是梯度下降算法和反向传播算法,随机梯度下降和使用batch的随机梯度下降算法也需要掌握,并需懂得使用TensorFlow优化神经网络计算框架。 关于神经网络优化过程中可能会遇到的问题:1.通过指数衰减的方式来设置学习率,既可以加快训练初期的训练速度,同时在训练后期又不会出现损失函数在极小值周围徘徊往返的情况;2.通过正则化可以解决过拟合问题,当损失函数仅仅取决于在训练数据上的拟合程度时,神经网络模型有可能只是“记忆”了所有的训练数据,而无法很好地对未知数据做出判断,正则化通过在损失函数中加入对模型复杂程度的隐私,可以有效避免过拟合问题;3.使用滑动平均模型可以让最后得到的模型在未知数据上更加健壮。 来源: CSDN 作者: xuesuoziluoshu 链接: https://blog.csdn.net/xuesuoziluoshu

tensorflow.我的概念理解_ZC

女生的网名这么多〃 提交于 2020-01-26 14:25:34
1、卷积神经网络(CNN) 和 递归神经网络(RNN) 2、损失函数在反向传播中的作用 - 简书.html( https://www.jianshu.com/p/f987103ec046 )  可以看出损失函数基本都是由真实值和预测值两部分组成,正确的损失函数,可以起到让预测值一直逼近真实值的效果, 当预测值和真实值相等时,loss值最小 。   ZC: 我应该可以这样理解:训练时 返回的损失值 越小,应该就是表明 训练的越好 3、 4、 5、 来源: https://www.cnblogs.com/pythonzc/p/12234139.html