梯度下降

Mxnet (26): 梯度下降(GD&SGD)

五迷三道 提交于 2020-10-03 05:28:01
这里我们介绍梯度下降的基本概念。尽管很少实际中很少用到,但是了解梯度下降有益于理解随机梯度下降算法的关键。例如,由于学习率过高,优化问题可能会有所不同,这在梯度下降中也会出现。同样预处理是梯度下降中的常用技术。我们先从简单的入手。 1 一维梯度下降 一维梯度下降是一个很好的例子,可以用于理解梯度下降算法如何减小目标函数的值。对于连续可微的实值函数 f : R → R f: \mathbb{R} \rightarrow \mathbb{R} f : R → R 。使用泰勒展开公式: f ( x + ϵ ) = f ( x ) + ϵ f ′ ( x ) + O ( ϵ 2 ) f(x + \epsilon) = f(x) + \epsilon f'(x) + \mathcal{O}(\epsilon^2) f ( x + ϵ ) = f ( x ) + ϵ f ′ ( x ) + O ( ϵ 2 ) 也就是说, f ( x + ϵ ) f(x+\epsilon) f ( x + ϵ ) 近似为 f ( x ) f(x) f ( x ) 以及在 x x x 处的一阶导数 f ′ ( x ) f'(x) f ′ ( x ) 之和。假设 ϵ \epsilon ϵ 向梯度相反移动将会减少 f f f 是合理的。为了简化,我们选择固定步长 η > 0 \eta > 0 η > 0 以及 ϵ =

NIPS 2017 | QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding

本小妞迷上赌 提交于 2020-10-02 15:58:06
由于良好的可扩展性,随机梯度下降(SGD)的并行实现是最近研究的热点。实现并行化SGD的关键障碍就是节点间梯度更新时的高带宽开销。因此,研究者们提出了一些启发式的梯度压缩方法,使得节点间只传输压缩后的梯度。尽管这些启发式方法在实践中很有效,但它们有时并不会收敛。 本文提出了量化SGD(Quantization SGD,QSGD),它是一类具有收敛保证且在实践中性能良好的压缩模式。QSGD允许用户平滑得权衡通信带宽和收敛时间:节点可以在每轮迭代时调整发送的比特数,代价可能是更高的方差。这种权衡是固有的,因为将其提高到某个阈值会违反信息理论的下限。QSGD在异步情况下保证了凸与非凸目标函数的收敛性,并且可以使用随机方差削减技术扩展。 当在图像识别与语音识别任务上训练深度神经网络时,QSGD显著地降低了端到端的训练时间。 1. Introduction 目前,许多研究者正在研究如何扩展大规模SGD算法。SGD算法的定义如下。令 \(f:\mathbb{R}^n\rightarrow\mathbb{R}\) 是我们要最小化的目标函数。我们可以得到随机梯度 \(\widetilde{g}\) ,即 \(\mathbb{E}[\widetilde{g}(x)]=\triangledown f(x)\) 。通过多次迭代,SGD可以收敛到最小值。 \[\boldsymbol{x}_{t+1}=

BP 神经网络用于模式分类

感情迁移 提交于 2020-10-02 10:40:35
% BP 神经网络用于模式分类 clc clear close all %--------------------------------------------------- % 产生训练样本与测试样本,每一列为一个样本 P1 = [rand(3,5),rand(3,5)+1,rand(3,5)+2]; T1 = [repmat([1;0;0],1,5),repmat([0;1;0],1,5),repmat([0;0;1],1,5)]; P2 = [rand(3,5),rand(3,5)+1,rand(3,5)+2]; T2 = [repmat([1;0;0],1,5),repmat([0;1;0],1,5),repmat([0;0;1],1,5)]; %--------------------------------------------------- % 归一化 [PN1,minp,maxp] = premnmx(P1); PN2 = tramnmx(P2,minp,maxp); %--------------------------------------------------- % 设置网络参数 NodeNum = 10; % 隐层节点数 TypeNum = 3; % 输出维数 TF1 = 'tansig';TF2 = 'purelin'; % 判别函数(缺省值)

贝叶斯神经网络最新综述

假如想象 提交于 2020-10-01 12:52:00
©PaperWeekly 原创 · 作者|尹娟 学校|北京理工大学博士生 研究方向|随机过程、复杂网络 论文标题: Bayesian Neural Networks: An Introduction and Survey 论文链接: https://arxiv.org/abs/2006.12024 引言 下一代神经网络的演化方向是什么?最近两年在北京举行的智源大会都谈到了这个问题,可能性的一个答案是贝叶斯神经网络,因为它可以对已有的知识进行推断。逻辑推理作用就是可以对已有的知识进行延伸扩展。 举个例子,如果询问训练完善的 AI 模型的一个问题,“在乌克兰,新西兰,新加坡,阿尔及利亚这四个国家里,哪一个国家位于中国的最西边”,这个问题的难点就在于那个“最”字,如果是传统的 AI 模型可能会蒙圈,因为乌克兰和阿尔及利亚都是在中国的西边,因为现有的训练的知识并不足以告诉它哪个是最西边,经过 BNN(贝叶斯神经网络)训练的模型可能会从经纬度,气温等其他信息进行推断得出一个阿尔及利亚在中国的最西边这个答案。 BNN 的最新进展值得每个 AI 研究者紧密关注, 本文就是一篇新鲜出炉的关于 BNN 的综述 ,为了方便读者的阅读,我按照自己的节奏和想法重新梳理了一下这篇文章。 神经网络 先回顾一下传统神经网络,论文限于篇幅的原因有一些重要的细节没有展开

logistic回归算法的损失函数:binary_crossentropy(二元交叉熵)

跟風遠走 提交于 2020-10-01 10:33:01
假设函数 : 更为一般的表达式: (1) 似然函数: (2) 对数似然函数: 如果以上式作为目标函数,就需要最大化对数似然函数,我们这里选择 最小化负的对数似然函数 (3) 对J(w)求极小值,对 求导 (4) 上述中 表示第i个样本的第j个属性的取值。 于是 的更新方式为: (5) 将(5)式带入(4)式,得: 梯度下降GD 的更新方式,使用全部样本: (6) 当样本不多的时候,可以选择这个方法 随机梯度下降: 每次只取一个样本,则 的更新方式: (7) 为这个样本的特征值, 是其真实值, 是这个样本的第j个属性 随机平均梯度下降法(sag,Stochasitc Average Gradient ) : 该算法是选取一小部分样本梯度的平均值来更新权重(其中n<m,m为样本数) (8) SGD和GD算法的折中 小结: 在尝试写一些机器学习相关的笔记,先写下一篇,欢迎讨论~ 来源: oschina 链接: https://my.oschina.net/u/4388188/blog/4524184

Mxnet (3): Softmax 回归(Softmax regression)

强颜欢笑 提交于 2020-10-01 03:31:42
有一种logistic回归的一般形式,叫做Softmax回归,用于处理多类型的分类问题。 0.Softmax操作 我们将在此处采用的主要方法是将模型的输出解释为概率。我们将优化参数以产生使观察到的数据的可能性最大化的概率。然后,为了生成预测,我们将设置一个阈值,例如,选择具有最大预测概率的标签。 正式地说,我们想要任何输出 y ^ j \hat{y}_j y ^ ​ j ​ 被解释为给定项目属于类别的概率 j 。然后我们可以选择具有最大输出值的类别作为我们的预测 argmax ⁡ j y j \operatorname{argmax}_j y_j a r g m a x j ​ y j ​ . 。例如,如果 y ^ 1 \hat{y}_1 y ^ ​ 1 ​ , y ^ 2 \hat{y}_2 y ^ ​ 2 ​ , 和 y ^ 3 \hat{y}_3 y ^ ​ 3 ​ 分别为0.1、0.8和0.1。然后预测是第二类。 您可能会倾向于建议我们解释日志 o 直接作为我们感兴趣的输出。然而,将线性层的输出直接解释为概率存在一些问题。一方面,没有什么约束这些数字的总和为1。另一方面,取决于输入,它们可以取负值。 为了将我们的输出解释为概率,我们必须保证(即使在新数据上)它们也将是非负的并且总和为1。此外,我们需要一个训练目标来鼓励模型忠实地估计概率。在分类器输出0.5的所有实例中

谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切

北战南征 提交于 2020-09-30 16:07:04
无限宽度神经网络 是近来一个重要的研究课题,但要通过实证实验来探索它们的性质,必需大规模的计算能力才行。近日,谷歌大脑公布的一篇论文介绍了他们在有限和无限神经网络方面的系统性探索成果。该研究通过大规模对比实验得到了 12 条重要的实验结论并在此过程中找到了一些新的改进方法。该文作者之一 Jascha Sohl-Dickstein 表示:「 这篇论文包含你想知道的但没有足够的计算能力探求的有关无限宽度网络的一切! 」 > > > > 近日,谷歌大脑的研究者通过大规模实证研究探讨了 宽神经网络与核(kernel)方法之间的对应关系 。在此过程中,研究者解决了一系列与无限宽度神经网络研究相关的问题,并总结得到了 12 项实验结果。 此外,实验还额外为权重衰减找到了一种改进版逐层扩展方法,可以提升有限宽度网络的泛化能力。 最后,他们还为使用 NNGP(神经网络高斯过程)和 NT(神经正切)核的预测任务找到了一种改进版的最佳实践,其中包括一种全新的集成(ensembling)技术。这些最佳实践技术让实验中每种架构对应的核在 CIFAR-10 分类任务上均取得了当前最佳的成绩。 论文链接:https://arxiv.org/pdf/2007.15801v1.pdf 当使用贝叶斯方法和梯度下降方法训练的神经网络的中间层是无限宽时,这些网络可以收敛至高斯过程或紧密相关的核方法

机器学习教程篇1 -- 线性回归(上)最小二乘法

孤街浪徒 提交于 2020-09-28 17:48:23
机器学习 -- 线性回归 一、最小二乘法 1、概念 2、内容讲解 (1)模型结构 (2)误差函数 (3)代码 (4)调用Scikit-learn库进行开发 “好好学习,天天向上” – 机器学习的第一个教程开始啦,后续会附上视频讲解 一、最小二乘法 1、概念 线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。主要解决的就是如何通过样本来获取最佳的拟合线。现在使用得比较广泛的就是梯度下降和最小二乘法,,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。在有监督学习问题中,线性回归是一种最简单的建模手段。这里首先讲解最小二乘法。 2、内容讲解 (1)模型结构 从线性回归模型开始讲起,由式子,最后是一条高维空间的直线(因为这里的x都是一次项的),最终的目的是求出a和b,也就是所有的x和b,为了让所有的点都在线上,就要不断调整w(系数,也即权重)。随着维度的增加,计算量也增加,用一组向量就可以表示所有的系数。注意这里W是列向量。 所以确定W和b就能求出y了。 (2)误差函数 理论值与预测值的差的平方最小。 (3)代码 1、导入数据,定义损失函数和拟合函数等。 import numpy as np import matplotlib . pyplot as plt points = np . genfromtxt ( 'data.csv' ,

为什么深度神经网络这么难训练?| 赠书

谁都会走 提交于 2020-09-28 01:44:24
导读:本文内容节选自 《深入浅出神经网络与深度学习》 一书,由 Michael Nielsen 所著,他是实验媒体研究工作室的联合创始人,曾是 YC Research 的 Research Fellow。。 本书深入了讲解神经网络和深度学习技术,侧重于阐释深度学习的核心概念。作者以技术原理为导向,辅以贯穿全书的 MNIST 手写数字识别项目示例,介绍神经网络架构、反向传播算法、过拟合解决方案、卷积神经网络等内容,以及如何利用这些知识改进深度学习项目。学完本书后,读者将能够通过编写 Python 代码来解决复杂的模式识别问题。 了解关于深度学习的更多干货知识, 关注CSDN并评论分享你对本文的学习心得或深度学习的见解 ,我们将从中选出5 条优质评论 ,各送出 《深入浅出神经网络与深度学习 》 一本。活动截止时间为 9 月6日 晚8点 。 假设你是工程师,接到一项任务:从头开始设计计算机。某天,你正在工作室设计逻辑电路,例如构建与门、或门等。这时,老板带着坏消息进来了:客户刚刚提了一个奇怪的设计需求——整个计算机的电路深度限于两层,如图5-1所示。 你惊呆了,跟老板说道:“他们疯了吧! ” 老板说:“我也觉得他们疯了,但是客户至上,只能设法满足他们。 ” 实际上,客户提出的需求并不过分。假设你能使用某种特殊的逻辑对任意多的输入执行AND运算

蘑菇街首页推荐视频流——增量学习与wide&deepFM实践(工程+算法)

随声附和 提交于 2020-09-24 06:03:10
欢迎关注我的公众号: 『诗品算法』 禁止一切未经本人 @ 琦琦许可的转载 一、楔子 害,写个这么严肃的技术话题还需要楔子么?这不是让大家放松一下嘛!毕竟是我的处女作,还是要来个看似一本正经的开场白和自我介绍的。 大家好,我是混迹于奋斗X之都——杭州的互联网大龄脱发女程序员一枚,大家可以关注我的公众号: “诗品算法” 。我会尽量保持每个月甚至每周更新一次的频率,在此立证(更新慢你也不能打我,只能用唾沫星子淹死我了哈哈)。 下面进入正题,带你领略蘑菇街有(坎)趣(坷)的从0到1的增量学习历程。 二、背景 在online deep learning炒得尤其火热的今天,我们知道,实时性就是互联网的生命和活力所在。笔者前几天跟一个阿里的朋友吃饭,朋友说,ODL现在是他们组最容易出成果的方向,众人愕然,ODL?哪篇论文里的?随即一拍大腿,原来是deep online learning。。。 试想,如果你刷抖音时,平台捕获到了你最近偏好旅行的即时兴趣,随即在很短时间内给你推荐了旅行相关的内容,你是不是会持续嗑药般地滑动下去?从而产生了心理学中所谓的无限“心流”,但我并不推崇这种类似沉迷游戏般的"心流",这种带有引号的“心流”仅仅是感官的愉悦,与精神的满足与自我的成就感无关,与至高的纯粹的甘美的快乐无关,与灵魂真正的安宁与幸福更是无关,因这并不会让你获得实质性的进步。扯远了