梯度下降

Robust Adversarial Examples_鲁棒的对抗样本

混江龙づ霸主 提交于 2020-12-29 17:16:48
https://blog.openai.com/robust-adversarial-inputs/?spm=a2c4e.11153940.blogcont149583.11.4ab360c0mXrtX7 原文中包含视频例子。 我们创建的图像可以在从不同的尺度和视角观察时可靠地欺骗神经网络分类器。 这挑战了上周声称自动驾驶汽车难以恶意欺骗,因为它们从多个尺度,角度,视角等捕获图像。 这张印刷在标准彩色打印机上的小猫照片让分类器误以为它是一台“显示器”或“台式电脑”,无论它是如何缩放或旋转的。 我们期望进一步的参数调整也会删除任何人类可见的伪像。 参照论文 1.Synthesizing Robust Adversarial Examples 开箱即用的对抗样本在图像转换下失败。 下面,我们展示了相同的猫图片,由ImageNet上训练的Inception v3错误地归类为台式计算机。 缩小至1.002会导致正确标签“tabby cat”虎斑猫的分类概率覆盖对抗性标签“desktop computer”台式计算机。 然而,我们怀疑积极的努力可以产生一个强大的对抗性的例子,因为已经证明对抗性的例子转移到物理世界。(参照论文 4.Adversarial examples in the physical world ) 尺度不变的对抗样本 可以使用称为 投影梯度下降(projected

A-03 牛顿法和拟牛顿法

喜夏-厌秋 提交于 2020-12-29 05:23:33
[TOC] 更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:<a target="_blank" href="https://www.cnblogs.com/nickchen121/p/11686958.html"> https://www.cnblogs.com/nickchen121/p/11686958.html </a> 牛顿法和拟牛顿法 牛顿法(Newton method)和拟牛顿法(quasi-Newton method)和梯度下降法一样也是求解最优化问题的常用方法,但是他们的收敛速度比梯度下降法快。牛顿法是迭代算法,每一步都需要求目标函数的海森矩阵的逆矩阵,计算复杂;拟牛顿法通过正定矩阵近似海森矩阵的逆矩阵,简化这个计算过程。 一、牛顿法详解 1.1 无约束最优化问题 对于一个约束问题 $$ \underbrace{min}_{x\in{R^n}}f(x) $$ 其中$x^*$为目标函数的极小点。 1.2 牛顿法迭代公式 假设$f(x)$具有二阶连续偏导数,如果第$k$次迭代值为$x^{(k)}$,则可以把$f(x)$在$x^{(k)}$附近使用二阶泰勒展开 $$ f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)

标准化和归一化

孤人 提交于 2020-12-27 00:59:37
一、是什么? 1. 归一化   是为了将数据映射到0~1之间,去掉量纲的过程,让计算更加合理,不会因为量纲问题导致1米与100mm产生不同。   归一化是 线性模型 做数据预处理的关键步骤,比如LR,非线性的就不用归一化了。   归一化就是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。 缺点: 这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义 。 另外,最大值与最小值非常容易受异常点影响, 所以这种方法鲁棒性较差,只适合传统精确小数据场景 2. z-标准化   消除分布产生的度量偏差,例如:班级数学考试,数学成绩在90-100之间,语文成绩在60-100之间,那么,小明数学90,语文100,小花数学95,语文95,如何评价两个综合成绩好坏的数学处理方式。 二、怎么选? 1. 标准化 标准化更好保持了样本间距。当样本中有异常点时,归一化有可能将正常的样本“挤”到一起去。比如三个样本,某个特征的值为1,2,10000,假设10000这个值是异常值,用归一化的方法后,正常的1,2就会被“挤”到一起去。如果不幸的是1和2的分类标签还是相反的,那么,当我们用梯度下降来做分类模型训练时,模型会需要更长的时间收敛,因为将样本分开需要更大的努力!而标准化在这方面就做得很好,至少它不会将样本“挤到一起”。 标准化更符合统计学假设

损失函数

寵の児 提交于 2020-12-24 19:07:42
1. 何为损失函数: 在机器学习里面,基本上所有的算法都是在对一个目标函数进行最大化或者最小化的一个过程,那么我们常常把这个最小化的函数称为损失函数,一般采用梯度下降法求解这个损失函数的最小值所对应的参数。可以认为,损失函数为我们的模型优化提供了方向。 2. 损失函数类型: 2.1 平方损失L2 (回归损失函数):预测值和目标值之间差值的平方和 2.2 平方绝对误差L1 2.3 对数损失函数(Cross Entropy Loss,Softmax Loss ):用于Logistic 回归与Softmax 分类中; 2.4 指数损失函数(Exponential Loss) :主要用于Adaboost 集成学习算法中; 2.5 铰链损失函数(Hinge Loss):主要用于支持向量机(SVM) 中 3. 对数损失函数 对数损失函数用到了极大似然估计思想,p(y|x)。 假设样本服从伯努利分布(0-1)分布,然后求得改分布的似然函数,接着取对数求极值(最小化负的似然函数)。利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值 4. 交叉熵 交叉熵刻画的是实际的输出(概率)和期望的输出(概率)的距离,交叉熵的值越小,两个概率分布越接近。 log 类型损失函数的优势可以将连乘转为求和,由于是单调函数,不会改变原结果,并且还很方面求最优,因此 log 类型的损失函数函数也非常常用

根据标签分布来选择损失函数

徘徊边缘 提交于 2020-12-24 09:34:48
来自 | 知乎 作者丨马东什么 来源丨https://zhuanlan.zhihu.com/p/304462034 编辑丨极市平台 本文仅作学术交流,如有侵权,请联系后台删除。 本文 约2000字 ,建议阅读 5 分钟 本文介绍了损失函数与标签分布的联系。 首先回到经典的面试问题: 为什么线性回归使用mse作为损失函数? 为什么逻辑回归二分类常用二元交叉熵作为损失函数? 熟悉lgb、xgb或者是sklearn中的各类回归模型包括了线性回归,tweedie回归等等应该都比较熟悉,我们在模型的框架之下可以选择不同的损失函数,以lightgbm为例: 针对于回归问题有非常多的备选损失函数,那么这些损失函数什么时候用,为什么? 回到基本面试问题,首先我们需要知道的是, 使用特定损失函数的前提是我们对标签的分布进行了某种假设,在这种假设的前提下通过极大似然法推出所有样本构成的极大似然公式,然后再使用凸优化的方法比如常见的梯度下降法进行求解。 以常见的二分类问题和回归问题为例: 二分类问题的常见假设就是标签服从伯努利分布: 伯努利分布 是一个离散型机率分布。试验成功,随机变量取值为1;试验失败,随机变量取值为0。成功机率为p,失败机率为q =1-p,N次试验后,成功期望为N*p,方差为N*p*(1-p) ,所以伯努利分布又称两点分布。 观察到的数据为D1,D2,D3,...,DN

下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》

眉间皱痕 提交于 2020-12-20 07:14:09
前段时间,小伙伴多次在后台留言询问 Python爬虫教程 的问题。经过这两个多月以来的收集与整理,汇集了 多个高校以及公开课视频教程 ,包括 python爬虫的入门、进阶与实践,共9G左右 。爬虫作为机器学习语料库构建的主要方式,建议大家都了解学习一下,现在不用并不代表将来用不到, 建议将视频资源收藏或保存 。 《 9G 爬虫视频教程 》已经打包好,可以通过下述步骤来获取: 1.扫描下方二维码 2. 回复关键词: 爬虫教程 👆长按上方二维码 2 秒 回复「 爬虫教程 」即可获取资料 另外 ,还有一份图文并茂的机器学习笔记送给你: 520页《图解机器学习》 , 以浅显易懂的方式去讲解它,降低大家的学习门槛 。我为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。 既适合非专业人士了解有关机器学习的基础概念,又适合有专业背景的学生进一步学习。 《 图解机器学习 》PDF已经打包好,可以通过下述步骤来获取: 1.扫描下方二维码 2. 回复关键词: 机器学习 👆长按上方二维码 2 秒 回复「 机器学习 」即可获取资料 从结构来看,全部教程包含两部分: Part 1 介绍了基本概念,包括: 机器学习的流程 数据处理 建模 评估指标(如 MSE、ROC 曲线) 模型部署 过度拟合 正则化等 在 Part2,作者介绍了 常用的算法,包括: 线性回归 逻辑回归 神经网络 SVM

深入探讨:为什么要做特征归一化/标准化?

三世轮回 提交于 2020-12-19 18:07:18
点击上方“ 迈微AI研习社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 作者丨shine-lee 来源丨https://blog.csdn.net/blogshinelee/article/details/102875044 编辑丨迈微AI研习社 迈微导读 本文解读了一项数据预处理中的重要技术——特征归一化,提出并解答了5个相关问题,同时分析了相关方法和适用场景。 写在前面 Feature scaling ,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是: 特征间的单位(尺度)可能不同 ,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用,而尺度小的特征其作用可能会被忽略, 为了消除特征间单位和尺度差异的影响,以对每维特征同等看待,需要对特征进行归一化 。 原始特征下, 因尺度差异,其损失函数的等高线图可能是椭圆形 ,梯度方向垂直于等高线,下降会走zigzag路线,而不是指向local minimum。通过对特征进行zero-mean and

吴恩达机器学习学习笔记——Week 2——多元线性回归(Multivariate Linear Regression)

戏子无情 提交于 2020-12-16 15:34:41
一、课件及课堂练习 1. 多个特征值(多变量) 课堂练习: 2. 多元梯度下降 课堂练习: 3. 梯度下降实践1——特征值缩放(均值归一化) 课堂练习: 4. 梯度下降实践2——学习率 课堂练习: 5. 特征数量及多项式回归 课堂练习: 6. 标准方程 课堂练习: 7. 标准方程法可能遇到不可逆问题 二、内容概要 1. 多个特征值 2. 多元梯度下降 3. 梯度下降实践1——特征值缩放 4. 梯度下降实践2——学习率 5. 特征数量及多项式回归 6. 标准方程 7. 标准方程法可能遇到不可逆问题 三、单元测试 答案:-0.47 来源: oschina 链接: https://my.oschina.net/u/4288530/blog/4810192

神经网络架构搜索——可微分搜索(DARTS)

穿精又带淫゛_ 提交于 2020-12-05 11:13:11
神经网络架构搜索——可微分搜索(DARTS) 背景 神经网络架构搜索之前主流的方法主要包括:强化学习,进化学习。他们的搜索空间都是不可微的,Differentiable Architecture Search 这篇文章提出了一种可微的方法,可以 用梯度下降来解决架构搜索的问题 ,所以在搜索效率上比之前不可微的方法快几个数量级。可以这样通俗的理解:之前不可微的方法,相当于是你定义了一个搜索空间(比如3x3和5x5的卷积核),然后神经网络的每一层你可以从搜索空间中选一种构成一个神经网络,跑一下这个神经网络的训练结果,然后不断测试其他的神经网络组合。这种方法,本质上是从很多的组合当中尽快的搜索到效果很好的一种,但是这个过程是黑盒,需要有大量的验证过程,所以会很耗时。而这篇文章把 架构搜索融合到模型当中一起训练 。 算法核心思想 DARTS算法示意图 由上图可分析: (a) 定义了一个cell单元,可看成 有向无环图 ,里面4个node,node之间的edge代表可能的操作(如:3x3 sep 卷积),初始化时unknown。 (b) 把搜索空间 连续松弛化 ,每个edge看成是所有子操作的混合(softmax权值叠加)。 (c) 联合优化 ,更新子操作混合概率上的 edge超参 (即架构搜索任务)和 架构无关的 网络参数 。 (d) 优化完毕后,inference 直接

[机器学习][逻辑回归] 有监督学习之逻辑回归

人盡茶涼 提交于 2020-12-05 06:07:39
线性回归方法一般只做回归分析,预测连续值等,而我们的任务是分类任务时该怎么办呢?下面我们讲一下最基本的分类方法,也就是逻辑回归方法(Logit regression)。逻辑回归又称为对数几率回归,它将线性回归的输出又进行了一个特殊的函数,使其输出一个代表分类可能性的概率值,这个特殊的函数称作sigmoid函数,如下式所示: 该函数的函数图像如下图所示: 图6 sigmoid函数 Sigmoid函数在机器学习乃至深度学习中占有很重要的地位,因为它具有以下几个良好性质: 单调可微,具有对称性 便于求导,sigmoid函数的导数满足: 定义域为 ,值域为 ,可以将任意值映射到一个概率上 将现行回归的输出值通过sigmoid函数,可以得到: 将上式稍作变形,可以得到: 可以看出,逻辑回归实际上就是用线性回归拟合 函数,但为什么逻辑回归能用于分类问题呢?由sigmoid函数的性质,我们可以做出假设:预测标签为第一类的数据概率为 , 预测为第二类的概率为 。 即 : 现在预测的概率知道了,我们可以通过极大似然估计(Maximum Likelihood Estimate, MLE)来估计参数 ,使得每个样本的预测值属于其真实标签值的概率最大。这时,极大似然函数也是我们的损失函数: 其中, 为所有待优化参数, 为关于参数 和样本特征 的sigmoid函数, 为样本数目。 为了直观展示逻辑回归的功能