线性回归

监督学习算法

你。 提交于 2020-04-06 10:04:43
本文首发自公众号: RAIS ,点击直接关注。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。由于各平台 Markdown 解析差异,有些公式显示效果不好,请到我 个人维护网站 查看。 监督学习算法 监督学习算法的定义是,给定一组输入 x 和输出 y,学习如何将其关联起来,现在的大部分情况都是监督学习算法的范畴。 逻辑回归 很多的监督学习算法是基于估计概率分 布P(y|x) 的,假设参数服从高斯分布,我们可以使用最大似然估计找到对于有参分布族 P(y|x;θ) 最好的参数向量 θ,即用最大似然估计得到目标函数,优化这个目标函数。线性回归对应于高斯分布分布族,通过定义一族不同的概率分布,可将线性回归扩展到分类情况中。 具体的做法就是将线性函数的输出使用 sigmoid 函数(就是前文说的那个样子像 S 型)将其压缩到 (0, 1) 空间内,这就叫做逻辑回归。注意这个逻辑回归不是回归,而是用来解决分类问题。当然,线性回归也可以推广为 Softmax 回归,不是这里的重点。 支持向量机 支持向量机是监督学习中关于分类与回归问题中重要的算法。与逻辑回归类似,这个模型也是基于线性函数的,不过输出有所不同,不输出概率,而是输出类别,为正正类,为负负类。 核技巧,其实这是一个数学上的概念,用来增加维度区分不同数据,如下图,区分下图中左侧的四个点

线性回归与逻辑回归的正则化

匆匆过客 提交于 2020-04-06 08:24:31
线性回归与逻辑回归的正则化 一、为什么要正则化? 说起正则化要从过拟合问题说起。 当我们拥有相当多的特征时,机器学习出来的假设可能在训练集上符合的很好,但是却未能在新的测试集上取得好的效果,这就是我们通常意义上所说的过拟合现象。 通常意义上可以采用舍弃一部分特征的方法来避免过拟合,但是相对的会舍弃一些特征信息。当我们需要保留所有特征变量时,我们就会使用正则化的方法。在正则化过程中,我们将保留所有的特征变量,但是我们会减少参数的量级或者参数的大小。另一方面,通过正则化也可以有效地帮助我们简化模型。 二、代价函数 例如我们有100个特征,事实上我们很难预先知道哪些特征变量有较低的相关性,即缩小哪些参数。因此,以线性回归为例,我们在线性回归的代价函数后加上一个额外的正则化项来缩小每个系数的值,如下所示: \[J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{i=1}^n\theta^2_j] \] λ不宜特别大。 三、线性规划的正则化 1.梯度下降法 在没有用正则化时,梯度下降法被用来去最小化代价函数,如下所示 \[\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j(j

线性回归

假装没事ソ 提交于 2020-04-06 04:35:02
来自百度 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,[引文需要],而不是一个单一的标量变量。) 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常 用的线性回归建模是给定X值的y的条件均值是X的仿射函数。不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位 数作为X的线性函数表示。像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。 线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。

线性回归(regression)

一曲冷凌霜 提交于 2020-04-06 04:30:56
简介 回归分析只涉及到两个变量的,称一元回归分析。一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。 回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用一个函数式去计算。 当Y=f(X)的形式是一个直线方程时,称为一元线性回归。这个方程一般可表示为Y=A+BX。根据最小平方法或其他方法,可以从样本数据确定常数项A与回归系数B的值。 线性回归方程 Target:尝试预测的变量,即目标变量 Input:输入 Slope:斜率 Intercept:截距 举例,有一个公司,每月的广告费用和销售额,如下表所示: 如果把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线: 有了这条拟合线,就可以根据这条线大致的估算出投入任意广告费获得的销售额是多少。 评价回归线拟合程度的好坏 我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合的程度如何,换句话说,是否能准确的代表离散的点?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数),用来判断回归方程的拟合程度。 要计算R^2首先需要了解这些: 总偏差平方和(又称总平方和,SST

最小二乘法

守給你的承諾、 提交于 2020-04-03 04:31:25
一、 最小二乘法的由来 1805年,法国数学家Legendre发表了最小二乘法的第一个清晰简洁的论述; 1809年,德国数学家高斯发表了《天体运动论》,并声称自1795年以来就使用了最小二乘法。导致了与Legendre的优先权争议。 1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明(高斯-马尔可夫定理) 二、参数估计——最小二乘法(正规方程) 1. 一元线性回归 对于一元线性回归模型 ,其中 e i 表示误差,可得 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为: 使总的拟合误差(即总残差)达到最小 。有以下三个标准可以选择: (1)用“残差和最小”确定直线位置是一个途径。但很快发现计 算“残差和”存在相互抵消的问题。 (2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。 (3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。 最常用的是 普通最小二乘法( Ordinary Least Square,OLS)

4.机器学习之逻辑回归算法

时光总嘲笑我的痴心妄想 提交于 2020-03-21 18:05:57
理论上讲线性回归模型既可以用于回归,也可以用于分类。解决回归问题,可以用于连续目标值的预测。但是针对分类问题,该方法则有点不适应,因为线性回归的输出值是不确定范围的,无法很好的一一对应到我们的若干分类中。即便是一个二分类,线性回归+阈值的方式,已经很难完成一个鲁棒性很好的分类器了。为了更好的实现分类,逻辑回归诞生了。逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事情发生的可能性。 逻辑回归是假设数据服从Bernoulli分布的,因此LR也属于参数模型,他的目的也是寻找到最优参数。 logistic回归是一种广义线性回归(generalized linear model)。 【补充】在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。 首先回顾一下简单线性回归(只考虑一个输入变量,一个输出变量的线性回归)。 表示输入变量(自变量),第一部分例子中的X。 表示输出变量(因变量),第一部分例子中的Y。一对 表示一组训练样本。m个训练样本

Deep learning:一(基础知识_1)

别说谁变了你拦得住时间么 提交于 2020-03-21 16:44:19
  不多说,直接上干货! 前言:   最近打算稍微系统的学习下deep learing的一些理论知识,打算采用Andrew Ng的网页教程 UFLDL Tutorial ,据说这个教程写得浅显易懂,也不太长。不过在这这之前还是复习下machine learning的基础知识,见网页: http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning 。内容其实很短,每小节就那么几分钟,且讲得非常棒。 教程中的一些术语:     Model representation: 其实就是指学习到的函数的表达形式,可以用矩阵表示。     Vectorized implementation: 指定是函数表达式的矢量实现。     Feature scaling: 指是将特征的每一维都进行一个尺度变化,比如说都让其均值为0等。    Normal equations: 这里指的是多元线性回归中参数解的矩阵形式,这个解方程称为normal equations.     Optimization objective: 指的是需要优化的目标函数,比如说logistic中loss function表达式的公式推导。或者多元线性回归中带有规则性的目标函数。    Gradient Descent、Newton

机器学习算法(优化)之一:梯度下降算法、随机梯度下降(应用于线性回归、Logistic回归等等)

旧街凉风 提交于 2020-03-18 09:32:12
本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x ( i ) 是第i个样本包含的所有特征组成的向量 x ( i ) = ( x ( i ) 1 , x ( i ) 2 . . . , x ( i ) n ) y ( i ) 第i个样本的label,每个样本只有一个label, y ( i ) 是标量(一个数值) h θ ( x ( i ) ) :拟合函数,机器学习中可以用多种类型的拟合函数 θ 是函数变量,是多个变量的向量 θ = [ θ 1 , θ 2 , . . . ] | h θ ( x i ) − y ( i ) | :拟合绝对误差 求解的目标是使得所有样本点( m 个)平均误差最小,即: 或者平方误差最小,即: arg min 表示使目标函数取最小值时的变量值(即 θ )值。 都被称为损失函数(Cost Function) J ( θ ) 不只是上面两种形式,不同的机器学习算法可以定义各种其它形式。 梯度下降迭代公式 为了求解 θ = [ θ 1 , θ 2 , . . . ] 的值,可以先对其赋一组初值,然后改变 θ 的值,使得 J ( θ ) 最小。函数 J ( θ )

人工智能知识点-学习笔记

假如想象 提交于 2020-03-17 12:15:41
断断续续学习了人工智能的标准教材《人工智能一种现代的方法》,经典教材内容全面详细,篇幅也很大,需要一定的基础知识。而且老外的行文方式,和我们不一样,看着比较费力,所以在读机器学习这一章节时,先看了 breakloop 的微博 https://blog.csdn.net/daihuimaozideren/article/details/82977972 ,了解一些基础知识,再去学习。 1.线性回归 知识点:线性关系,线性回归,假设函数,代价函数,学习速率,梯度下降,特征向量 连续的用回归,离散的分类。假设函数是目标,代价函数是用来评估误差的,使用梯度下降算法,学习速率是一个参数,多元的方法类似,使用最小二乘法计算。 2.逻辑回归 知识点:决策边界,凸函数,非凸函数 逻辑回归是用来解决分类问题的,借用了线性回归的方法,使用引入sigmoid函数来处理假设函数, , 凸函数就是有极大值的函数,任意二点的连线都在内部,二次导数大于0。使用对数函数作为代价函数。枚举问题(有多个y值)使用多个代价函数(具体如何计算暂不清楚)。 3.梯度下降vs正规方程法 知识点:特征缩放,均值归一化,正规方程 影响梯度下降算法收敛速度的因素包括:样本集合大小,特种向量中某一元素的取值范围远大于其它元素,学习速率等,对于取值范围大的参数使用特殊缩放,在保证收敛的前提下尽量提升学习率

【机器学习】线性回归LinearRegression原理以及系数推导

时间秒杀一切 提交于 2020-03-17 11:50:33
线性方程 y = w1x1 + w2x2 + … … + wnxn + b 令 W = (w1, w2 … … wn), X = (x1, x2, … … xn) 则 y = W * X ^ T + b 称 W 为回归系数, X 为特征向量, b 为截距 线性方程的推导 现有 m 个已知样本, 每个样本有 n 个特征记为 X1, X2, … … , Xn 每个X中都有 n 个 x 对应的标签记为: y1, y2, … … , ym ,且特征和标签成线性关系 此时只要求得 W 就可得到线性回归方程 ​ 将m个已知量带入方程会得到方程组: ​ y1 = W * X1 ^ T + b = w1x1_1 + w2x1_2 + … … + wnx1_n + b ​ y2 = W * X2 ^ T + b = w1x2_1 + w2x2_2 + … … + wnx2_n + b ​ … … ​ ym = W * Xm ^ T + b = w1xm_1 + w2xm_2 + … … + wnxm_n + b ​ 讨论: m > n 且无共线, 方程无解 ​ m = n 且无共线, 有且只有一个解 ​ m < n 无数个解 ​ 在实际生产环境中 m >> n (样本数远远大于特征维度), 所以上述方案行不通 最小二乘法 假设 W’ 和 b‘ 是最合适的, 得到假设出来的回归方程: W‘ * X ^