损失函数

003 机器学习中的基础知识

自作多情 提交于 2020-01-13 09:38:15
  有些知识还是记录下来比较容易复习。   懂原理, 会使用平台,使用语言实现常见算法。 1.大纲   机器学习的基本概念   机器学习的实质   机器学习方法的三要素   经验风险与结构风险   常见损失函数 一:基本概念 1.机器学习的方法流程   用监督学习为例      首先,有一个输入数据,然后根据这个输入数据做一些特征的加工和整理,基于特征进行模型的训练,去建模,然后做模型评估,得到一个可以接受的模型,然后对模型就行部署,使用模型对业务进行应用。   定期更新模型,对模型生命周期进行维护。 2.输入空间与输出空间   输入空间(input space):将输入的所有可能取值的集合称作输入空间   输出空间(output space):将输出的所有可能取值的集合作为输出空间   输入空间与输出空间可以是有限元素的集合,也可以是欧式空间   输出空间与输出空间可以是连续值的集合,也可以是离散集合   输入空间与输出空间可以是同一个空间   通常,输出空间比输入空间小 3.特征空间   特征:每个输入实例的各个部分称为原始特征,基于特征还可以扩展出衍生特征   特征向量:多个特征组合的集合   特征空间:将特征向量存在的空间称为特征空间   特征空间每一维都对应一个特性   特征空间可以与输入空间相同,也可以不同   需要将实例从输入空间映射到特征空间  

全网最详细yolov1-yolov3原理

喜夏-厌秋 提交于 2020-01-13 05:26:57
文章目录 YOLO发展概述 YOLO v1~v3的设计历程 Yolov1 1. 核心思想 2. **网络结构** 3. Loss函数 4. 训练过程 5 .总结 Yolov2 1. 核心思想 2. 网络结构 3. Loss函数 4. 训练过程 5. 数据增强 6. 总结 Yolov3 1. 核心思想 2. 网络结构 3. loss 函数 4. 训练过程 5. Darknet框架 # YOLOv3原理 YOLO发展概述 2015 年,R-CNN 横空出世,目标检测 DL 世代大幕拉开。 各路豪杰快速迭代,陆续有了 SPP,fast,faster 版本,至 R-FCN,速度与精度齐飞,区域推荐类网络大放异彩。 奈何,未达实时检测之,难获工业应用之青睐。 此时,凭速度之长,网格类检测异军突起,先有 YOLO,继而 SSD,更是摘实时检测之桂冠,与区域推荐类二分天下。然却时遭世人诟病。 遂有 JR 一鼓作气,并 coco,推 v2,增加输出类别,成就 9000。此后一年,作者隐遁江湖,逍遥 twitter。偶获灵感,终推 v3,横扫武林! YOLO不断吸收同化对手,进化自己,提升战斗力:YOLOv1 吸收了 SSD 的长处(加了 BN 层,扩大输入维度,使用了 Anchor,训练的时候数据增强),进化到了 YOLOv2; 吸收 DSSD 和 FPN 的长处,仿 ResNet 的

感知机、logistic回归 损失函数对比探讨

天大地大妈咪最大 提交于 2020-01-11 05:15:10
感知机、logistic回归 损失函数对比探讨 感知机   假如数据集是线性可分的,感知机学习的目标是求得一个能够将正负样本完全分开的分隔超平面 \(wx+b=0\) 。其学习策略为,定义(经验)损失函数并将损失函数最小化。通常,定义损失函数的策略是:== 误分类点 到分隔超平面的总距离==。【李航,2.2节】 如果没有误分点,则损失函数值是0. 感知机学习算法若采用不用的初始值或选取不同的误分类点,得到的分隔超平面可不同。 logistic回归(对数几率回归):   逻辑回归和感知机一样,定义一个决策面(分隔面)来区分正负两类样本。但是其学习策略为:   定义: \(z=\theta x=ln \dfrac{p}{1-p}\) ,其中 \(z\in R\) , \(p=P(y=1\mid x ;\theta)\) , \(p\in (0,1)\) ,即样本点为1的概率。此时 \(z = \theta x=0\) 为分类决策面, \(p=g(z)=\dfrac{1}{1+e^{-z}}\) ,其实可发现:   当 \(\theta^TX\gt0\) ,则有 \(p\gt0.5\) ;若 \(\theta^TX\to+\infty\) ,则 \(p\to1\) ,即 y 为 1 类;   当 \(\theta^TX\lt0\) ,则有 \(p\lt0.5\) ;若 \(\theta

七种损失函数

旧巷老猫 提交于 2020-01-11 01:16:29
主要内容: 0-1 , Hinge , Logisti c, Cross Entropy, Square , Absolute , Huber 简述: 损失函数刻画了模型与训练样本的匹配程度。 分类损失 对于二分类问题,Y={1,-1},我们希望 0-1损失: 最自然的损失函数是0-1损失,表示的是,当且仅当预测不正确的时候取值为1,否则取值为0。该损失函数能够直观的刻画分类的错误率,但是由于其非凸、非光滑的特点,使得算法很难直接对该函数进行优化。 Hinge损失: Hinge损失函数是0-1损失函数相对紧的凸上界,且当 时候,该函数不对其做任何处罚。由于Hinge损失在f.y=1处不可导,因此不能使用梯度下降算法优化,而是使用次梯度下降法。 Logistic损失函数: Logistic损失函数也是0-1损失函数的凸上界,且该函数处处光滑,因此可以使用梯度下降法进行优化。但是,该函数对所有样本点都做惩罚,因此对异常点更为敏感。 Cross Entropy: 交叉熵损失函数是常用的二分类损失函数。交叉熵损失函数也是0-1损失的光滑凸上界。 回归损失 1.对于回归问题,我们期望 Square损失: 平方损失函数是光滑函数,能够使用梯度下降法优化。然而当预测值距离真实值越远时,平方损失函数的惩罚力度越大,因此对异常点比较敏感。 Absolute损失: 绝对损失函数相当于在做中值回归

损失函数的学习与选择

隐身守侯 提交于 2020-01-11 01:04:35
目录 0-1损失函数(zero-one loss) log对数损失函数 L2 Loss 、 L1 Loss 交叉熵损失函数 (Cross-entropy loss function) OpenPose中使用的损失函数: Faster RCNN中使用的损失函数: ssd中使用的损失函数: 深度学习中,从简单的分类任务,到复杂的检测任务,姿态估计等任何任务,都必须包含一个函数的定义:损失函数。 直观意思就是,模型预测出来的东西和实际ground truth区别有多大,只要设置的损失函数符合二者之间差别越大损失函数越大,差别越小损失函数越小,就挺好 损失函数 分为 经验风险损失函数 和 结构风险损失函数 。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。 0-1损失函数(zero-one loss) L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{l}{1, Y \neq f(X)} \\ {0, Y=f(X)}\end{array}\right. L ( Y , f ( X ) ) = { 1 , Y  ​ = f ( X ) 0 , Y = f ( X ) ​ 对应分类判断错误的个数,但是是一个非凸函数

SVM的损失函数(Hinge Loss)

社会主义新天地 提交于 2020-01-10 11:28:27
损失函数 是用来衡量一个预测器在对输入数据进行分类预测时的质量好坏。损失值越小,分类器的效果越好,越能反映输入数据与输出类别标签的关系(虽然我们的模型有时候会过拟合——这是由于训练数据被过度拟合,导致我们的模型失去了泛化能力)。 相反,损失值越大,我们需要花更多的精力来提升模型的准确率。就参数化学习而言,这涉及到调整参数,比如需要调节权重矩阵W或偏置向量B,以提高分类的精度。 Hinge Loss 多分类svm: 损失函数的计算方法为: ,其中i代表第i个样品,j代表第j个种类,那么y_i代表第i个 样品的真实种类。 其中,常用的数学表达式为: ,但为了与代码中的统一,从而稍微变动以下 ,对于y_i来说同理。 计算正确类的预测值,和其他类的预测值之间的差距,如果正确类的预测值大于所有不正确的预测值则损失函数为0,证明当前的W和b所计算得到的效果很好。 当把损失值推广到整个训练数据集,则应为: 两分类SVM: 在二分类情况下,铰链函数公式如下: L(y) = max(0 , 1 – t⋅y) 其中,y是预测值(-1到1之间),t为目标值(1或 -1)。其含义为:y的值在 -1到1之间即可,并不鼓励 |y|>1,即让某个样本能够正确分类就可以了,不鼓励分类器过度自信,当样本与分割线的距离超过1时并不会有任何奖励。目的在于使分类器更专注于整体的分类误差。 计算案例

优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

一个人想着一个人 提交于 2020-01-07 06:52:02
在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下: https://arxiv.org/pdf/1609.04747.pdf 本文将梳理: 每个算法的梯度更新规则和缺点 为了应对这个不足而提出的下一个算法 超参数的一般设定值 几种算法的效果比较 选择哪种算法 0.梯度下降法深入理解 以下为个人总结,如有错误之处,各位前辈请指出。 对于优化算法,优化的目标是网络模型中的参数θ(是一个集合,θ 1 、 θ 2 、 θ 3 ...... )目标函数为损失函数L = 1/N ∑ L i (每个样本损失函数的叠加求均值)。这个损失函数L变量就是θ,其中L中的参数是整个训练集,换句话说,目标函数(损失函数)是通过整个训练集来确定的,训练集全集不同,则损失函数的图像也不同。那么为何在mini-batch中如果遇到鞍点/局部最小值点就无法进行优化了呢?因为在这些点上,L对于θ的梯度为零,换句话说,对θ每个分量求偏导数,带入训练集全集,导数为零。对于SGD/MBGD而言,每次使用的损失函数只是通过这一个小批量的数据确定的,其函数图像与真实全集损失函数有所不同,所以其求解的梯度也含有一定的随机性

【论文翻译】Deep Visual-Semantic Hashing for Cross-Modal Retrieval

笑着哭i 提交于 2020-01-06 17:57:25
Deep Visual-Semantic Hashing for Cross-Modal Retrieval 用于跨模态检索的深度视觉语义哈希 摘要: 由于哈希算法具有较高的存储和检索效率,在大规模多媒体检索中被广泛应用于近似近邻搜索。跨模态哈希能够有效地检索图像以响应文本查询,反之亦然,近年来受到越来越多的关注。现有的大多数跨模态哈希研究工作都没有捕捉到图像的空间依赖性和文本句子的时间动态,从而学习强大的特征表示和跨模态嵌入,从而缓解了不同模式的异质性。摘要提出了一种新的深度视觉语义哈希(DVSH)模型,该模型在端到端深度学习体系结构中生成图像和句子的紧凑哈希码,捕捉视觉数据与自然语言之间的内在跨模态对应关系。DVSH是一种混合的深度架构,它构成了一个用于学习图像和文本句子的联合嵌入空间的可视化语义融合网络,以及两个用于学习哈希函数以生成紧凑二进制代码的特定于模态的哈希网络。我们的架构有效地统一了联合多模态嵌入和交叉模态哈希,它是基于图像上的卷积神经网络、句子上的递归神经网络和一个结构化的最大裕度目标的新组合,该目标将所有东西集成在一起,从而能够学习保持相似性和高质量的哈希码。大量的经验证据表明,我们的DVSH方法在图像-句子数据集的跨模态检索实验中,即标准的IAPR TC-12和大规模的Microsoft COCO中,得到了最先进的结果。 1.介绍 而海量

损失函数理解:MSE和 Cross Entropy Error

╄→尐↘猪︶ㄣ 提交于 2020-01-01 21:15:31
损失函数与代价函数 :目前理解是损失函数就是代价函数,且在损失函数的基础上进行梯度下降,找到最优解。 损失函数 :根据目标模型的不同,会分为回归损失函数,逻辑回归分类损失。 MSE损失函数:度量特征图之间的距离,目标是提取特征图推理一致性。平均平方误差(mean square error)。MAE损失函数与之会有差异,mean absolute error,思想是这一类。 交叉熵损失函数: 交叉熵由真实分布编码长度的期望演变而来(参考 https://www.cnblogs.com/ljy2013/p/6432269.html ),交叉熵(cross entropy error)是衡量两个概率分布p,q之间的相似性。这在特征工程中,用来衡量变量的重要性。 所以交叉熵常用于分类。表达式是 类别✖️相应的概率表达。其他分类损失函数如0-1损失函数,变形联立后用交叉熵表达就是交叉熵损失函数。 来源: https://www.cnblogs.com/xiaoheizi-12345/p/12129947.html

《统计学习方法学习》算法学习笔记(一)之感知机

丶灬走出姿态 提交于 2019-12-30 09:44:53
感知机 总述 感知机是 二类分类 的 线性分类模型 ,其 输入 为实例的 特征向量 , 输出 为 实例的类别 ,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的 分离超平面 ,属于 判别模型 。感知机学习旨在求出将训练数据进行线性化分的分离超平面,为此,导入基于 误分类的损失函数 ,利用 梯度下降法 对损失函数极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学到的感知机模型对新的输入实例进行分类。 1.1 感知机模型 定义 :假设输入空间(特征空间) x x x 是 R n \R^n R n ,输出空间是 y y y ={-1, +1},输入 x x x 表示实例的特征向量,对应于输入空间(特征空间)中的点,输出 y y y 表示实例的类别。由输入空间到输出空间的如下函数 f ( x ) = s i g n ( w ∗ x + b ) f(x)=sign(w*x+b) f ( x ) = s i g n ( w ∗ x + b ) 称为感知机 。其中, w w w 和 b b b 称为感知机模型参数, w ∈ R n w∈R^n w ∈ R n 叫权值或权值向量, b ∈ R b∈R b ∈ R 叫作偏置, w ∗ x w*x w ∗ x 表示 w w w 和 b b b 的内积, s i g n