梯度下降

拉格朗日乘子法

家住魔仙堡 提交于 2020-12-04 02:42:31
接下来准备写支持向量机,然而支持向量机和其他算法相比牵涉较多的数学知识,其中首当其冲的就是标题中的拉格朗日乘子法、KKT条件和对偶问题,所以本篇先作个铺垫。 大部分机器学习算法最后都可归结为最优化问题。对于无约束优化问题: $\min\limits_\boldsymbol{x} f(\boldsymbol{x})$ (本篇为形式统一,只考虑极小化问题),一般可直接求导并用梯度下降或牛顿法迭代求得最优值。 <br> 对于含有等式约束的优化问题,即: $$ \begin{aligned} {\min_{\boldsymbol{x}}} & ;;{f(\boldsymbol{x})} \ {\text { s.t. }} & ;;{h_{i}(\boldsymbol{x}) = 0}, \quad i=1,2, \ldots, m \end{aligned} $$ 由于等式约束 $h_i(\boldsymbol{x}) = 0$ 的存在,无法直接求导迭代求解。拉格朗日乘子法是解决此类问题的常用方法,其核心思想是将约束优化转化为无约束优化问题,即将有 $d$ 个变量和 $m$ 个等式约束条件的最优化问题转换为一个有 $(d + m)$ 个变量的函数求平稳点的问题。 <br><br><br><br> <center>拉格朗日乘子法</center> 下面画图来直观理解拉格朗日乘子法

机器学习的数学基础

吃可爱长大的小学妹 提交于 2020-12-04 02:19:48
点击上方蓝色字关注我们~ 一、概述 我们知道,机器学习的特点就是: 以计算机为工具和平台,以数据为研究对象,以学习方法为中心; 是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科。 所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识。 二、线性代数 2-1、标量 一个标量就是一个单独的数,一般用小写的的变量名称表示。 2-2、向量 一个向量就是一列数,这些数是有序排列的。 用过次序中的索引,我们可以确定每个单独的数。 通常会赋予向量粗体的小写名称。 当我们需要明确表示向量中的元素时,我们会将元素排 列成一个方括号包围的纵柱: 我们可以把向量看作空间中的点,每个元素是不同的坐标轴上的坐标。 2-3、矩阵 矩阵是二维数组,其中的每一个元素被两个索引而非一个所确定。 我们通常会赋予矩阵粗体的大写变量名称,比如A。 如果一个实数矩阵高度为m,宽度为n,那么我们说 。 矩阵这东西在机器学习中就不要太重要了! 实际上,如果我们现在有N个用户的数据,每条数据含有M个特征,那其实它对应的就是一个N*M的矩阵呀; 再比如,一张图由16*16的像素点组成,那这就是一个16*16的矩阵了。 现在才发现,我们大一学的矩阵原理原来这么的有用! 要是当时老师讲课的时候先普及一下,也不至于很多同学学矩阵的时候觉得莫名其妙了。 2-4、张量

[Reinforcement Learning] Value Function Approximation

纵然是瞬间 提交于 2020-12-02 08:17:58
为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢? 其实到目前为止,我们介绍的值函数计算方法都是通过查表的方式获取的: 表中每一个状态 $s$ 均对应一个 $V(s)$ 或者每一个状态-动作 <$s, a$> 但是对于大型 MDP 问题,上述方法会遇到瓶颈: 太多的 MDP 状态、动作需要存储 单独计算每一个状态的价值都非常的耗时 因此我们需要有一种能够适用于解决大型 MDP 问题的通用方法,这就是本文介绍的值函数近似方法。即: $$ \hat{v}(s, \mathbf{w}) \approx v_{\pi}(s) \ \text{or } \hat{q}(s, a, \mathbf{w}) \approx q_{\pi}(s, a) $$ 那么为什么值函数近似的方法可以求解大型 MDP 问题? 对于大型 MDP 问题而言,我们可以近似认为其所有的状态和动作都被采样和计算是不现实的,那么我们一旦获取了近似的值函数,我们就可以对于那些在历史经验或者采样中没有出现过的状态和动作进行泛化(generalize)。 进行值函数近似的训练方法有很多,比如: 线性回归 神经网络 决策树 ... 此外,针对

机器学习——条件随机场

混江龙づ霸主 提交于 2020-11-30 17:06:50
《统计学习方法》 李航著 第十一章 条件随机场 概率无向图模型 是由 无向图表示的联合概率分布 。无向图上的 结点之间的连接关系 表示了联合分布的随机变量集合之间的条件独立性,即 马尔可夫性 。因此, 概率无向图模型也称为马尔可夫随机场 。概率无向图模型或马尔可夫随机场的联合概率分布可以分解为无向图最大团上的正值函数的乘积的形式。 条件随机场 是给定输入随机变量X条件下,输出随机变量Y的 条件概率分布模型 , 其形式为参数化的对数线性模型。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。条件随机场是 判别模型 。 线性链条件随机场 是定义在 观测序列 与 标记序列 上的 条件随机场 。线性链条件随机场 一般表示为给定观测序列条件下的标记序列的条件概率分布 ,由参数化的对数线性模型表示。模型包含特征及相应的权值,特征是定义在线性链的边与结点上的。线性链条件随机场的数学表达式是 线性链条件随机场的概率 计算 通常利用 前向-后向算法 。 条件随机场的 学习 方法通常是 极大似然估计方法或正则化的极大似然估计 ,即在给定训练数据下,通过极大化训练数据的对数似然函数以估计模型参数。具体的算法有 改进的迭代尺度算法 、 梯度下降法 、 拟牛顿法 等。 线性链条件随机场的一个重要 应用 是 标注 。 维特比算法

机器学习知识框架

蹲街弑〆低调 提交于 2020-11-26 13:44:34
参数 参数分为两种:可学习得到的参数,和超参数。 机器学习可以归结为学习一个映射函数f : x → y,将输入变量 x映射为输出变量y。一般我们可以假设映射函数为y = f(x, θ)。其中θ 即为函 数的参数。参数可以通过学习算法进行学习。 除了可学习的参数之外,还有一类参数是用来定义模型结构或训练策略的, 这类参数叫做超参数(Hyper-Parameter)。超参数和可学习的参数不同,通常是按照人的经验设定,或者通过网格搜索(Grid Search)对一组超参数组合进行不断试错调整。 常见的超参数:聚类算法中的类别个数、梯度下降法的步长、正则项的系数、神经网络的层数、支持向量机中的核函数等。 特征学习 特征学习分成两种:特征选择和特征抽取。 特征选择(Feature Selection) 是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用特征,移除冗余或无关的特征。 最暴力的做法是测试每个特征子集,看机器学习模型哪个 子集上的准确率最高,但这种方式效率太低。常用的方法是采样贪心的策略,由空集合开始,每一轮添加该轮最优的特征;或者从原始特征集合开始,每次删 除最无用的特征。 特征抽取(Feature Extraction)是构造一个新的特征空间,并将原始特征 投影在新的空间中。以线性投影为例,原始特征向量x ∈ R d

详解凸优化、图神经网络、强化学习、贝叶斯方法等四大主题

故事扮演 提交于 2020-11-25 16:54:55
加入AI行业拿到高薪仅仅是职业生涯的开始。 现阶段AI人才结构在不断升级,对AI人才的要求也不断升高,如果对自己没有很高的要求,其实很容易被快速发展的趋势所淘汰。 为了迎合时代的需求,我们去年推出了 《机器学习高端训练营》 班。这个训练营的目的很简单: 想培养更多高端的人才,帮助那些即将或者目前从事科研的朋友,同时帮助已从事AI行业的提高技术深度。 在本期训练营(第四期)中我们对内容做了大幅度的更新,一方面新增了对前沿主题的讲解如 图神经网络(GCN,GAT等) ,另外一方面对核心部分(如凸优化、强化学习)加大了对 理论层面上的深度 。 除此之外,也会包含 科 研方法论、元学习、解释性、Fair learning 等系列主题。 目前在全网上应该找不到类似体系化的课程。 课程仍然采用 全程直播 授课模式。 那什么样的人适合来参加高阶班呢? 从事AI行业多年,但技术上总感觉不够深入,感觉在 技术上遇到了瓶颈; 停留在使用模型/工具上,很难基于业务场景来 提出新的模型; 对于机器学习背后的优化理论、前沿的技术不够深入; 计划从事尖端的科研、研究工作、申请AI领域研究生、博士生; 打算进入最顶尖的AI公司比如Google,Facebook,Amazon, 阿里,头条等; 读ICML,IJCAI等会议文章比较吃力,似懂非懂感觉, 无法把每个细节理解透; 01 课程大纲 第一部分

详解凸优化、图神经网络、强化学习、贝叶斯方法等四大主题

|▌冷眼眸甩不掉的悲伤 提交于 2020-11-25 16:33:32
加入AI行业拿到高薪仅仅是职业生涯的开始。现阶段AI人才结构在不断升级,对AI人才的要求也不断升高,如果对自己没有很高的要求,其实很容易被快速发展的趋势所淘汰。 为了迎合时代的需求,我们去年推出了 《机器学习高端训练营》 班,由学院创始团队亲自授课,受到了广大学员的好评。 在本期训练营(第四期)中我们对内容做了大幅度的更新,一方面新增了对前沿主题的讲解如 图神经网络 ,另外一方面对核心部分(如凸优化、强化学习)加大了对 理论层面上的深度 。 目前在全网上应该找不到类似体系化的课程。 课程仍然采用 全程直播 授课模式。 那什么样的人适合来参加高阶班呢? 从事AI行业多年,但技术上总感觉不够深入,感觉在技术上 遇到了瓶颈 ; 停留在使用模型/工具上,很难基于业务场景来 提出新的模型 ; 对于机器学习背后的优化理论、前沿的技术不够深入; 计划从事尖端的科研、研究工作、申请AI领域研究生、博士生; 打算进入最顶尖的AI公司比如Google,Facebook,Amazon, 阿里,头条等; 读ICML,IJCAI等会议文章比较吃力,似懂非懂感觉, 无法把每个细节理解透; 01 课程大纲 第一部分:凸优化与机器学习 第一周:凸优化介绍 从优化角度理解机器学习 优化技术的重要性 常见的凸优化问题 线性规划以及Simplex Method Two-Stage LP 案例:运输问题讲解 第二周

Python.SVM(三)核方法

拜拜、爱过 提交于 2020-11-25 14:01:43
Python.SVM(三)核方法 1 什么是核方法 往简单里说,核方法是将一个低维的线性不可分的数据映射到一个高维的空间、并期望映射后的数据在高维空间里是线性可分的。 我们以异或数据集为例:在二维空间中、异或数据集是线性不可分的;但是通过将其映射到三维空间、我们可以非常简单地让其在三维空间中变得线性可分。 比如定义映射: 该映射的效果如下图所示: 可以看到,虽然左图的数据集线性不可分、但显然右图的数据集是线性可分的,这就是核工作原理的一个不太严谨但仍然合理的解释 从直观上来说,确实容易想象、同一份数据在越高维的空间中越有可能线性可分,但从理论上是否确实如此呢? 1965 年提出的 Cover 定理从理论上解决了这个问题,我们会在文末附上相应的公式,这里暂时按下不表 至此,似乎问题就转化为了如何寻找合适的映射、使得数据集在被它映射到高维空间后变得线性可分。 不过可以想象的是,现实任务中的数据集要比上文我们拿来举例的异或数据集要复杂得多、直接构造一个恰当的的难度甚至可能高于解决问题本身。 而核方法的巧妙之处就在于,它能将构造映射 这个过程再次进行转化、从而使得问题变得简易:它通过核函数来避免显式定义映射往简单里说,核方法会通过用能够表示成 的核函数 替换各算式中出现的内积 来完成将数据从低维映射到高维的过程。 换句话说、核方法的思想如下: 将算法表述成样本点内积的组合

详解凸优化、图神经网络、强化学习、贝叶斯方法等四大主题

主宰稳场 提交于 2020-11-25 10:46:52
加入AI行业拿到高薪仅仅是职业生涯的开始。现阶段AI人才结构在不断升级,对AI人才的要求也不断升高,如果对自己没有很高的要求,其实很容易被快速发展的趋势所淘汰。 为了迎合时代的需求,我们去年推出了 《机器学习高端训练营》 班。这个训练营的目的很简单: 想培养更多高端的人才,帮助那些即将或者目前从事科研的朋友,同时帮助已从事AI行业的提高技术深度。 在本期训练营(第四期)中我们对内容做了大幅度的更新,一方面新增了对前沿主题的讲解如 图神经网络(GCN,GAT等) ,另外一方面对核心部分(如凸优化、强化学习)加大了对 理论层面上的深度 。 除此之外,也会包含 科 研方法论、元学习、解释性、Fair learning 等系列主题。 目前在全网上应该找不到类似体系化的课程。 课程仍然采用 全程直播 授课模式。 那什么样的人适合来参加高阶班呢? 从事AI行业多年,但技术上总感觉不够深入,感觉在技术上遇到了瓶颈; 停留在使用模型/工具上,很难基于业务场景来提出新的模型; 对于机器学习背后的优化理论、前沿的技术不够深入; 计划从事尖端的科研、研究工作、申请AI领域研究生、博士生; 打算进入最顶尖的AI公司比如Google,Facebook,Amazon, 阿里,头条等; 读ICML,IJCAI等会议文章比较吃力,似懂非懂感觉,无法把每个细节理解透; 01 课程大纲 第一部分:凸优化与机器学习

谈谈实现小样本学习的两条路径

半世苍凉 提交于 2020-11-24 09:53:03
来源:混沌巡洋舰 小样本学习是当下机器学习界的一个核心课题。大数据是当下深度学习的咽喉,面临收集成本昂贵,甚至根本无法采集的弊端, 小样本学习的实践价值不言而喻。对于众多产业来说, 真正能够收集到大量样本的是极少数情况,比如人脸识别,互联网上的文本等。而更广大的行业, 数据本身收集就很难,一些隐私伦理等障碍难以跨越,比收集数据更难的还有标注,大数据支撑的机器学习基本使用无望。 所谓小样本学习,就是使用远小于深度学习所需要的数据样本量, 达到接近甚至超越大数据深度学习的效果,也即是小样本学习的本质就是学习的效果与数据比值的提升, 或者说单位数据产生的模型收益增大了 。 与之高度相关的课题其实是迁移学习, 元学习, 提高模型泛化性能, 这些方法, 本质是在不对数据使用量进行限定的情况下, 如何让同一模型用到更广泛的数据分布和更多的任务, 因此它们是一颗硬币的两面。多一分泛化能力,就少一点数据成本。 那么, 小样本学习究竟有没有可能?这个问题其实是细思恐极。因为这个命题就像永动机一样, 似乎违反了能量守恒。不应该是有多少数据, 有多少模型效果吗?这里事实上一被忽略的盲点是先验知识, 二被忽略的是盲点是数据利用效率。 如果没有任何先验知识, 当然是有多少数据有多少模型。然而, 如果先验知识是充足的, 那么其实可以数据不足, 知识来凑。另一条路则是提高单位数据的使用效率,