线性回归

【cs229-Lecture11】贝叶斯统计正则化

这一生的挚爱 提交于 2020-02-10 07:53:58
本节知识点: 贝叶斯统计及规范化 在线学习 如何使用机器学习算法解决具体问题:设定诊断方法,迅速发现问题 贝叶斯统计及规范化(防止过拟合的方法) 就是要找更好的估计方法来减少过度拟合情况的发生。 回顾一下,线性回归中使用的估计方法是最小二乘法,logistic 回归是条件概率的最大 似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM 是二次规划。 一下转自: http://52opencourse.com/133/coursera 斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读。 1) The Problem of Overfitting(过拟合问题) 拟合问题举例-线性回归之房价问题: a) 欠拟合(underfit, 也称High-bias) b) 合适的拟合: c) 过拟合(overfit,也称High variance) 什么是过拟合(Overfitting): 如果我们有非常多的特征

线性回归方程推导

扶醉桌前 提交于 2020-02-09 13:25:28
https://blog.csdn.net/joob000/article/details/81295144 理论推导   机器学习所针对的问题有两种:一种是回归,一种是分类。回归是解决连续数据的预测问题,而分类是解决离散数据的预测问题。线性回归是一个典型的回归问题。其实我们在中学时期就接触过,叫最小二乘法。   线性回归试图学得一个线性模型以尽可能准确地预测输出结果。   先从简单的模型看起:   首先,我们只考虑单组变量的情况,有: 使得   假设有m个数据,我们希望通过x预测的结果f(x)来估计y。其中w和b都是线性回归模型的参数。   为了能更好地预测出结果,我们希望自己预测的结果f(x)与y的差值尽可能地小,所以我们可以写出代价函数(cost function)如下:   接着代入f(x)的公式可以得到:   不难看出,这里的代价函数表示的是预测值f(x)与实际值y之间的误差的平方。它对应了常用的欧几里得距离简称“欧氏距离”。基于均方误差最小化来求解模型的方法我们叫做“最小二乘法”。在线性回归中,最小二乘法实质上就是找到一条直线,使所有样本数据到该直线的欧式距离之和最小,即误差最小。   我们希望这个代价函数能有最小值,那么就分别对其求w和b的偏导,使其等于0,求解方程。   先求偏导,得到下面两个式子:   很明显,公式中的参数m,b,w都与i无关,简化时可以直接提出来

机器学习基石笔记:09 Linear Regression

*爱你&永不变心* 提交于 2020-02-09 06:01:02
原文地址: https://www.jianshu.com/p/4f5a151fb633 最小化线性回归的样本内代价函数值: 线性回归算法泛化可能的保证: 根据矩阵的迹的性质: \(trace(A+B)=trace(A)+trace(B)\) ,得: \(\begin{equation}\begin{aligned} trace(I-H)&=trace(I_{N*N})-trace(H)\\&=N-trace(XX^+)\\&=N-trace(X^T X(X^T X)^{-1})\\&=N-trace(I_{(d+1)*(d+1)})\\&=N-(d+1) \end{aligned}\end{equation}\) 。 \(I-H\) 这种转换的物理意义: 原来有一个有 \(N\) 个自由度的向量 \(y\) ,投影到一个有 \(d+1\) 维的空间 \(X\) (代表一列的自由度,即单一输入样本的参数),而剩余的自由度最大只有 \(N-(d+1)\) 。 线性分类是近似求解,线性回归是解析求解; 线性分类中使用0/1误差,线性回归中使用均方误差; 误差方面,线性分类能小于线性回归,但线性回归速度更快; 可以用线性回归的参数结果初始化线性分类的参数值, 减少迭代过程,加速求解。 来源: https://www.cnblogs.com/cherrychenlee/p/10799295

机器学习基石笔记-Lecture 9 Linear regression

无人久伴 提交于 2020-02-09 05:49:18
线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好。因为假设空间是线性的,所以最后的g会是直线或者平面。 通常的误差衡量方法是使用平方误差 接下来的问题是如何最小化 Ein 将Ein写成矩阵形式, 注意到Ein是w的函数,是连续的、可微的、凸函数。 对w求偏导使之为0则可以求出最优点。 这是一个关于w的一次方程。 在 不可逆时,它的 pseudo-inverse仍然存在,只是会有多个,选取其中一个去得到w即可。 线性回归是一个学习算法吗? 先来看一看它的Ein H也可以叫做投影矩阵 线性回归嘛,预测出来的y_hat 就在 span of X上。真实的y要与y_hat最小,那么就是要 那residual,也就是 y - y_hat 可以写作 y通过(I-H)做投影。 如果加入了noise, y - y_hat 也可以看做是 noise 通过(I-H)的投影 然后就有(???)为什么要求Ein的平均不太懂。。 第二条说的Eout的平均与Ein的平均的差,也就是平均的Eout与Ein的差,和VC给的保证(最坏的情形)不一样。 只要N足够大,noise比较小的话,learning happened. 可以使用linear regression 来做 linear classification. 首先看看两者的误差衡量方式,0/1 err最小化不好解。。 也就是说

机器学习基石(9)--Linear Regression

℡╲_俬逩灬. 提交于 2020-02-09 05:43:21
线性回归。 从本节课开始,我会适当的结合一些《机器学习实战》中的相关知识点对各个模型做一个更加全面的归纳和总结。 继续试着用加权(打分)的方式对每一个输入x进行计算,得出的线性回归的模型为h(x)=W T X。衡量的目标是找一个向量W使得squared error最小。由于E in ≈E out ,所以我们还是只看E in 就好了。 那么怎么最小化E in 呢?以下是一些数学推导: 我们的目标变成了最小化E in ,也就是说要求下面式子的最小值。 E in 的一些特点:连续,可微的凸函数,求最小的E in 就是求E in 函数上每一个点的梯度。 梯度是0的时候,函数在该点上,不管是朝哪一个方向,都不能往下滚了。也就是说在凸函数谷底的梯度(偏微分)一定要是0。我们的目标又变成了找到一个w lin ,使得梯度E in (w lin )=0 这是一个关于w的一元二次方程,求导之后得出: 其中,X和y都是已知的,只有要求的w是未知的。 根据X T X的性质不同(是不是invertible),我们分两种情况进行求解: 线性回归基本步骤: 了解了线性回归的基本步骤,那么这个演算法真的是机器学习吗? 只要Eout的结果是好的,机器学习就在这个演算法里发生了。 抛开单个的Ein,我们想看一下Ein的平均,通过证明得出Ein和噪声程度,自由度和样本数量有关。 向量y表示所有的真实值,y

机器学习——Day1

谁都会走 提交于 2020-02-08 23:11:46
文章目录 0.什么是机器学习 1.线性回归 1.1最小二乘 1.2梯度下降 1.3梯度下降法-一元线性回归 0.什么是机器学习 机器学习(machine learning)是目前信息技术中最激动人心的方向之一,通过学习机器学习我们可以深入了解人类的本质(复读机??)——人类学习的过程,可以在一定程度上帮助我们了解学习的机制,提升我们日常工作的效率. 机器学习的 本质 是通过不断学习大量知识求解一个具体问题,而这个大量的知识我们称之为 训练集 ,再通过 验证集 进行评估学习(模型)的好坏,这类似于我们学习数学一样,在考试前疯狂的做题目进行训练,再通过考试验证自己是否掌握了这些知识。 1.线性回归 特征(feature) 标签(target) f ( x ) = θ 0 + θ 1 ∗ x f(x) = \theta_0+\theta_1*x f ( x ) = θ 0 ​ + θ 1 ​ ∗ x 代价函数(cost function)又称损失函数,用于评价模型的好坏,用于计算feature 常见的代价函数有最小二乘 1.1最小二乘 真实值y,误差值 h θ ( x ) h_\theta(x) h θ ​ ( x ) ,则误差为 ( y − h θ ( x ) ) 2 (y-h_\theta(x))^2 ( y − h θ ​ ( x ) ) 2 Γ ( θ 0 , θ 1 ) = 1

非线性回归结果分析

眉间皱痕 提交于 2020-02-08 18:42:02
最近发现一个特别好用的统计软件——minitab 在他的帮助文档中,很好的总结了如何比较拟合结果的好坏 以下为具体网址: https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/modeling-statistics/regression/how-to/nonlinear-regression/interpret-the-results/key-results/#step-3-determine-how-well-the-model-fits-your-data 我们在非线性和线性拟合后,会得到残差平方和、决定系数R方等等,之前我一直用前两个来比较拟合优度,但是对于不同的拟合方程,他们的残差平方和也不同。当我们确定一个线性模型与数据的吻合程度时,几乎会将所有注意力集中在R-squared上。但是,以前我曾经说过R-squared被高估了。下面会提供一些其他的方法。 简单概述概述一下。 在此之前需要明白几个术语: 其他参数见网址:( https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/modeling-statistics/regression/how-to/fitted-line-plot/methods-and-formulas/methods

[回归] 线性回归之解析解的推导过程

穿精又带淫゛_ 提交于 2020-02-07 06:06:24
线性回归 Linear Regression——线性回归 是什么? 是机器学习中有监督机器学习下的一种简单的回归算法。 分为一元线性回归(简单线性回归)和多元线性回归,其中一元线性回归是多元线性回归的一种特殊情况,我们主要讨论多元线性回归 做什么? 回归问题关注的是一个因变量和一个或多个自变量的关系,根据已知的自变量来预测因变量. 如果因变量和自变量之间的关系满足线性关系(自变量的最高幂为一次),那么我们可以用线性回归模型来拟合因变量与自变量之间的关系. 怎么做? 简单线性回归的公式如下: y ^ = a x + b \hat y=ax+b y ^ ​ = a x + b 多元线性回归的公式如下: y ^ = θ T x \hat y= \theta^T x y ^ ​ = θ T x 上式中的 θ \theta θ 为系数矩阵,x为单个多元样本. 由训练集中的样本数据来求得系数矩阵,求解的结果就是线性回归模型,预测样本带入x就能获得预测值 y ^ \hat y y ^ ​ ,求解系数矩阵的具体公式接下来会推导. 推导过程 推导总似然函数 假设线性回归公式为 y ^ = θ x \hat y= \theta x y ^ ​ = θ x . 真实值y与预测值 y ^ \hat y y ^ ​ 之间必然有误差 ϵ = y ^ − y \epsilon=\hat y-y ϵ = y ^

大白话解读梯度下降法解决一元线性回归

我是研究僧i 提交于 2020-02-07 01:49:37
1.一元线性回归与损失函数 在我们解决一元线性回归进行拟合曲线的时候,常常会使用梯度下降法。 假设我们的数据集为 # 训练数据 x_train = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]) y_train = np.array([1, 3, 4, 5, 6, 7, 8, 9, 10]) 我们想将其拟合成一条曲线,然后进行训练。拟合曲线表示如下 我们如何去拟合呢?显然两点确定一条直线的。我们就其次,然后求得一个函数,各个点到该函数的方差和最小,于是,我们将其称为损失函数(也叫代价函数、目标函数),该函数如下 该方程为凸函数,并且有极小值。 2.梯度下降法求解最小值 我们解决一个函数的最小值的时候,往往会想到使用导数来求。但是,在多维数据,或者大数据情况下,这种求解方法不适用。 于是,我们有了一个新的方法。 例题:求解y = x^2的极小值 1.我们可以随机取一个点m,假设取到了10, 那么我们显然偏离了,我们进行计算,发现y = 10^2=100,偏右边了怎么办呢? 2.我们将m减去导数,得到100-2*10,靠近了一点点,我们反复取值,即可靠近最低点。 3.在机器学习中,往往允许的误差是极小的,所以,我们应该将m乘上一个alpha值,这个值是学习率,学习率越低,往往拟合函数越好,但是也不是无限低的。 3.梯度下降求解一元线性回归 我们将梯度下降

机器学习之线性回归

99封情书 提交于 2020-02-07 01:01:04
1.什么是线性回归 线性回归,首先要介绍一下机器学习中的两个常见的问题:回归任务和分类任务。那什么是回归任务和分类任务呢?简单的来说,在监督学习中(也就是有标签的数据中),标签值为连续值时是回归任务,标志值是离散值时是分类任务。 线性回归模型就是处理回归任务的最基础的模型。 线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中,因变量Y是连续的,自变量X可以是连续或离散的。 首先来了解一些字母的含义:m-训练集样本的数量;x-输入变量/特征;y-输出变量/要预测的目标变量;(x,y)-表示一个训练样本;( x ( i ) x^{(i)} x ( i ) , y ( i ) y^{(i)} y ( i ) )中i上标:表示第i个训练样本,即表示表格中的第i行; x 1 x_{1} x 1 ​ 、 x 2 x_{2} x 2 ​ 、… x n x_{n} x n ​ 表示特征向量,n表示特征向量的个数; h θ h_{\theta} h θ ​ (x)称为假设函数,h是一个引导从x得到y的函数; 举个简单的例子: 输入数据:工资( x 1 x_{1} x 1 ​ )和房屋面积( x 2 x_{2} x 2 ​ )(两个特征) 输出目标:预测银行会贷款多少钱(标签) 姓名 工资 房屋面积 可贷款金额 张三 6000 58 33433 李四 9000 77