梯度

论文解读《Deep Resdual Learning for Image Recognition》

爱⌒轻易说出口 提交于 2020-02-24 20:05:20
总的来说这篇论文提出了ResNet架构,让训练非常深的神经网络(NN)成为了可能 。 什么是残差? “残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。”如果回归模型正确的话, 我们可以将残差看作误差的观测值。”更准确地,假设我们想要找一个 x x,使得 f ( x ) = b f(x)=b,给定一个 x x 的估计值 x 0 x0,残差(residual)就是 b − f ( x 0 ) b−f(x0),同时,误差就是 x − x 0 x−x0 为什么需要堆叠更深的NN呢? 论文阐述道 -- 深度神经网络自然的集成了低、中、高阶特征,同时随着网络深度的提升,这些特征也会随之丰富,这些丰富的特征对于最后执行的分类或回归任务来说都是很有意义的,一般认为可以获得更好的结果; 但是,论文又指出一些问题,堆叠深层的NN存在一些问题: -- 堆叠深层的网络后,网络的学习会变得更加的不容易,因为存在着梯度消失/爆炸问题(BN一定程度解决),会妨碍模型的收敛,使得模型不能得到很好的学习; -- 通过实验发现,堆叠更深的网络存在着退化问题,即随着深度的增加,在分类任务中的正确率会饱和并开始迅速的下降,并且会得到更大的训练损失; 所以可以得到想要优化深层的网络结果并不容易,那么现有解决方法是怎么构造更深层的模型呢? 作者阐述了一种方法就是:增添的网络层都是恒等映射网络

分布式机器学习系统笔记(一)——模型并行,数据并行,参数平均,ASGD

℡╲_俬逩灬. 提交于 2020-02-24 15:48:10
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。 文章索引::”机器学习方法“,”深度学习方法”,“三十分钟理解”原创系列 2017年3 月,谷歌大脑负责人 Jeff Dean 在 UCSB 做了一场题为《通过大规模深度学习构建智能系统》的演讲[9]。Jeff Dean 在演讲中提到,当前的做法是: 解决方案 = 机器学习(算法)+ 数据 + 计算力 未来有没有可能变为: 解决方案 = 数据 + 100 倍的计算力? 由此可见,谷歌似乎认为,机器学习算法能被超强的计算力取代[9]。 [11]研究工作表明,任务表现与训练数据数量级呈线性增长关系。或许最令人震惊的发现是视觉任务的表现和用于表征学习的训练数据量级(对数尺度)之间的关系竟然是线性的!即使拥有 300M 的大规模训练图像,我们也并未观察到训练数据对所研究任务产生任何平顶效应(plateauing effect)。 上图说明预训练模型在 JFT-300M 不同子数据集中的目标检测性能。其中 x 轴代表数据集的大小,y 轴代表在 mAP@[.5,.95] 中 COCO-minival 子数据集上的检测性能。 要完成超大规模数据的训练,以及训练超大规模的神经网络,靠单GPU是行不通的(至少目前来看)

分布式深度学习之DC-ASGD

五迷三道 提交于 2020-02-24 14:30:10
本篇笔记是听刘铁岩老师做Distributed Deep Learning:New Driving Force of Artificial Intelligence报告整理而成 深度学习梯度下降公式如下 常用的深度学习训练方法为: Full batch -> SGD -> min-batch SGD Stochastic Gradient Descent (SGD) 其中: full batch是将所有的样本过一遍再更新参数,更新的效率较低。 SGD每一个样本更新一次参数,更新频率非常快。但是每一个样本对应的目标函数和整个数据集对应的目标函数是有差别的,因为这是一个随机抽样。可以证明,在随机抽样的时候SGD的目标函数对整个神经网络学习的目标函数来说是一个无偏估计,但这个无偏估计可能会有很大的方差,所以在学习的过程中会引入许多因方差导致的噪声,所以学习的收敛率不是很好。 mini-batch是在这两者之间达到一个平衡,一方面希望比较频繁地更新参数,另一方面希望mini-batch降低单个样本带来的方差。 以上是标准的神经网络的训练方法。 challenges of training deep networks Overfitting: Too many parameters to learn from limited number of training examples

图像梯度(Image Gradient)

让人想犯罪 __ 提交于 2020-02-24 08:49:24
图像梯度是指图像某像素在x和y两个方向上的变化率(与相邻像素比较),是一个二维向量,由2个分量组成,X轴的变化、Y轴的变化 。 其中X轴的变化是指当前像素右侧(X加1)的像素值减去当前像素左侧(X减1)的像素值。 同理,Y轴的变化是当前像素下方(Y加1)的像素值减去当前像素上方(Y减1)的像素值。 计算出来这2个分量,形成一个二维向量,就得到了该像素的图像梯度。取反正切arctan,可得到梯度角度。 这个求图像梯度的过程可以通过一个卷积核来实现:[-1,0,1] 来源: CSDN 作者: 我是老孙啊 链接: https://blog.csdn.net/greatwall_sdut/article/details/104457449

pytorch 自动求梯度

守給你的承諾、 提交于 2020-02-22 22:41:32
自动求梯度 在深度学习中,我们经常需要对函数求梯度(gradient)。PyTorch提供的 autograd 包能够根据输入和前向传播过程自动构建计算图,并执行反向传播。本节将介绍如何使用autograd包来进行自动求梯度的有关操作。 概念 上一节介绍的 Tensor 是这个包的核心类,如果将其属性 .requires_grad 设置为 True ,它将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。完成计算后,可以调用 .backward() 来完成所有梯度计算。此 Tensor 的梯度将累积到 .grad 属性中。 注意在 y.backward() 时,如果 y 是标量,则不需要为 backward() 传入任何参数;否则,需要传入一个与 y 同形的 Tensor 。 如果不想要被继续追踪,可以调用 .detach() 将其从追踪记录中分离出来,这样就可以防止将来的计算被追踪,这样梯度就传不过去了。此外,还可以用 with torch.no_grad() 将不想被追踪的操作代码块包裹起来,这种方法在评估模型的时候很常用,因为在评估模型时,我们并不需要计算可训练参数( requires_grad=True )的梯度。 Function 是另外一个很重要的类。 Tensor 和 Function 互相结合就可以构建一个记录有整个计算过程的有向无环图

神经网络基本概念

天涯浪子 提交于 2020-02-22 19:45:32
相关练习项目: 一个简单的神经网络 感知器 (perceptron) 即信号输入元, 单个的数据源, 比如人的眼睛,耳朵,鼻子,都是感知器 离散型和连续型预测 (discrete & continuous) 激活函数 (activation function) 使用连续激活函数,预测的结果不是非对即错,而是一个概率,表示预测结果的可靠,及确定性 SoftMax 多类别分类时使用 SoftMax 定义 def softmax(L): expL = np.exp(L) return expL/expL.sum() 分类问题的预测结果使用 softmax 作为激活函数,转化之后的结果加总为 100%,每个值代表一个预测结果可能发生的概率 One-hot Encoding 多类别分类时,分类目标数据一般表示为 [2,4,56,7,8,...] ,需要转换成类似 [[0,1,0,0,0,0,0], [0,0,0,1,0,0,0], [0,0,1,0,0,0,0], [0,0,0,0,1,0,0], ...] 这样的数据,计算机才能高效的处理. (不过使用PyTorch做分类问题时,不需要手动转化) 最大似然率(maximum likelihood) 最大似然率 所有预测结果(概率)的乘积, 用来衡量预测的结果的好坏,随着数据量变大,乘积无限接近0,不是一个好的衡量方式,所以不用. 交叉墒

《动手学深度学习》批量归一化和残差网络;凸优化;梯度下降

北慕城南 提交于 2020-02-22 06:54:34
批量归一化和残差网络;凸优化;梯度下降 批量归一化和残差网络 对全连接层做批量归一化 对卷积层做批量归一化 残差网络(ResNet) ResNet模型 稠密连接网络(DenseNet) 过渡层 DenseNet模型 凸优化 深度学习与凸优化 优化在深度学习中的挑战 凸性 Jensen不等式 凸函数性质 梯度下降 一维 多维 批量归一化和残差网络 对全连接层做批量归一化 归一化增加在全连接层激活函数之前,全连接层输入为 u u u ,批量归一化运算符 B N BN B N ,那么使用批量归一化的全连接层的输出为: ϕ ( BN ( x ) ) \phi(\text{BN}(\boldsymbol{x})) ϕ ( BN ( x ) ) 其中批量归一化输入 x x x 由仿射变换 x = W u + b x=Wu+b x = W u + b 得到 对于一个由 m m m 个样本组成的小批量,仿射变换的输出为一个新的小批量 B = x ( 1 ) , . . . , x ( m ) B=x^{(1)},...,x^{(m)} B = x ( 1 ) , . . . , x ( m ) ,他们是批量归一化曾的输入。批量归一化层的输出为: y ( i ) = B N ( x ( i ) ) y^{(i)}=BN(x^{(i)}) y ( i ) = B N ( x ( i ) ) 批量归一化

opencv-python中Canny算子边缘检测详解

▼魔方 西西 提交于 2020-02-21 17:47:16
Canny算子是一种非常流行的边缘检测算法,在opencv中直接提供给了我们Canny函数,但是我们还是有必要对其原理有一定的了解。 原理 Canny算子包含四步操作: 去噪 首先要去除图像的噪声,边缘检测很容易受到噪声的影响。去噪操作中我们使用的是5*5的高斯滤波器。 计算梯度 在这一步要计算图像的梯度。不但要计算梯度的大小,还要求出梯度的方向。梯度的方向被归为四类:水平,垂直,两条对角线方向。 计算图像梯度的大小和方向的公式如下: 非极大值抑制 经过以上操作得出的边界是非常粗糙且精度低的。我们需要在计算出梯度的大小和方向之后对整幅图像的像素点进行遍历。去除那些不在边界上的点。 对每一个像素点进行检查,看它是否是周围同方向梯度的点中梯度最大的。如果是最大的,就保留,如果不是,就抑制(归0) 如图,黄色点被保留,白色点被抑制。 滞后阈值 这是确定点是否在边界上的最后一关。我们设置两个阈值(maxVal,minVal) 凡是梯度大于maxVal的点我么就认为这个点处在边界上,保留 梯度值大于minVal小于maxVal的点,如果这个点与某个确定为边界的点相连,保留;否则就抛弃 梯度值小于minVal的点,全部抛弃 经过这四步操作,我们就可以得到所想要的真正边界。 函数 OpenCV中提供给我们现成的函数: cv2 . Canny ( sec , minVal , maxVal )

1-2梯度下降法&多层感知器(Tensorflow学习笔记)

浪尽此生 提交于 2020-02-21 04:37:09
#寻找损失函数的极值点的算法 #局部最优 #为什么一定会找到最小值? #随机初始化值的概率 #学习速率是一种超参数 #有哪些优化算法,以及他们的学习速率怎么定 #学习速率过高过低,会影响找到极值点的效率,如果太大,会让损失函数的极值在极值点附近来回跳动 感知器的历程 #多层感知器(神经网络) #单个神经元 #多个神经元(多分类) 无法解决异或问题 单层神经元的缺陷:神经元要求数据必须是线性可分得,异或无法找到一条直线分割两个类 0 1 :1;1 0 :0;0 0: 0;1 1 :1 多层感知器 - 输入层,隐含层,输出层,输出 - 激活函数: - relu __/ - sigmoid,映射到(-1,1) - tanh (-1,1) - leak relu 负小正大 import pandas as pd import numpy as np import matplotlib . pyplot as plt % matplotlib inline import os os . getcwd ( ) path = 'D : \\xxx\\pythonPycharm_2018 . 3.5 Build 183.5912 .18 \\xxx ' #修改当前工作目录 os . chdir ( path ) #查看修改后的工作目录 print ( "目录修改成功 %s" % os .

动手学深度学习笔记二

巧了我就是萌 提交于 2020-02-20 01:58:22
Task03 错题 一.过拟合、欠拟合及解决方法 二.梯度消失、梯度爆炸 可以理解为在夏季的物品推荐系统与冬季相比,时间或者说季节发生了变化,导致了夏季推荐圣诞礼物的不合理的现象,这个现象是由于协变量时间发生了变化造成的。 三.循环神经网络进阶 实现深层循环神经网络需要修改的参数是?num_layers 3. GRU有重置门和更新门,没有遗忘门。重置门有助于捕捉时间序列里短期的依赖关系,更新门有助于捕捉时间序列⾥长期的依赖关系。参考视频1分20秒起关于GRU的原理讲解。 4. 每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态,而非参数,因此不需要初始化。 5. LSTM和GRU能一定程度缓解梯度消失与梯度爆炸的问题。 RNN层数越深效果未必越好,层数的加深会导致模型的收敛变得困难。 Task04 一.机器翻译及相关技术 二.注意力机制与Seq2seq模型 Task05 错题 一.卷积神经网络基础 二.LeNet 三.卷积神经网络进阶 来源: CSDN 作者: coolcodingLW 链接: https://blog.csdn.net/qq_15528459/article/details/104399382