线性回归方程

线性回归——最大似然函数

こ雲淡風輕ζ 提交于 2019-12-30 20:46:04
似然函数    似然函数 与概率非常类似但又有根本的区别,概率为在某种条件(参数)下预测某事件发生的可能性;而似然函数与之相反为已知该事件的情况下 推测出该事件发生时的条件(参数) ;所以似然估计也称为参数估计,为参数估计中的一种算法; 下面先求抛硬币的似然函数,然后再使用似然函数算出线性回归的参数;   假如有一枚硬币我们现在不知道它是否为正常硬币(正反面出现概率各位50%),所以想通过抛10次然后通过硬币正反面出现的概率分布判断该硬币是否正常;当抛完10次时出现5次正面向上、5次反面向上,正反面出现的概率符合正常硬币的预期,这时我们可以判断该硬币是正常的;   抛硬币符合二项分布所以下面计算出概率分布情况:      如图:          上图中x轴为正面出现的次数,y轴为上述函数的结果   上面式子中w为正反面出现的比例,y为正面出现的次数; 使用最大似然法求硬币问题   似然函数为知道了结果求条件,概率问题为知道了条件求概率,在这个问题中就是知道了硬币是正常的,求正反面出现的比例w为何值时该结果最靠谱;所以似然函数等于:        函数左边的值并非条件概率中的条件而是该函数的依赖值,似然函数L为在给定结果y的情况下参数w的取值情况,概率函数L为知道了参数w求得y的取值;有了抛硬币情况的概率分布这里就可以给出 似然函数 :     

机器学习实战:预测数值型数据 - 回归

浪子不回头ぞ 提交于 2019-12-23 12:39:20
机器学习实战:预测数值型数据 - 回归 文章目录 机器学习实战:预测数值型数据 - 回归 一、回归 1、回归 概述 2、回归 场景 3、回归 原理 线性回归 须知概念 工作原理 开发流程 算法特点 4、线性回归 & 局部加权线性回归 项目案例 4.1 线性回归 项目案例 4.2 局部加权线性回归 项目案例 局部加权线性回归 工作原理 项目案例 编写代码 拟合效果 4.3 线性回归 & 局部加权线性回归 项目案例 项目概述 开发流程 5、缩减系数来 “理解” 数据 5.1 岭回归 编写代码 运行效果 5.2 套索方法(Lasso) 5.3 前向逐步回归 编写代码 运行效果 5.4 小结 6、权衡偏差和方差 7、回归 项目案例 项目案例1: 预测乐高玩具套装的价格(已失效) 项目概述 开发流程 8、回归 选读内容 9、回归 小结 资料来源 一、回归 1、回归 概述 回归的目的是预测数值型的目标值。 其核心就是通过样本得到回归方程(一个预测值的计算公式),形如 y = ax , 其中a 就是回归系数,求回归系数的过程就是回归。一旦有了回归方程,再给定输入,预测就非常容易了。具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值。 我们这里所说的,回归系数是一个向量,输入也是向量,这些运算也就是求出二者的内积。 说到回归,一般都是指线性回归

回归算法

匆匆过客 提交于 2019-12-20 02:37:56
1.什么是回归? 2.回归的类型有哪些? 3.线性回归的分析 4.总结 1.什么是回归? 回归分析是在一系列的已知或能通过获取的自变量与因变量之间的相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,通过其来实现对新自变量得出因变量的关系。因此回归分析是实用的预测模型或分类模型。 凡事皆有因果关系,解读“回归”二字,其实就是由因回溯果的过程,最终得到的因与果的关系,就称为回归。回归其实就是一个名词,没有特别的含义。 下面用一个大众的例子来更加形象的解释何为回归。 【根据销售产品预测营销额(实际中,此类数据挖掘问题可帮助商家合理的进货与最大化利润)】 这是一部分数据。观察数据一共有3个维度的因素影响最终的营销额。先拿部分数据集出来可视化,观察自变量与因变量间的关系。 通过Python可视化数据,可以看到产品销量与营销额的关系看似是线性的。其实实际中真的是这样做的,只不过在数据的获取和特征选择上做更多的功夫。所以,在此可以通过建立回归模型来分析这个业务问题。 这里先不考虑如何写代码的细节,直接上图清晰的看出回归模型的由来与作用。 由以上的图片看出来,由各个产品的销量与营销额建立回归模型: y = 0.04695 x1 + 0.17659 x2 + 0.00185*x3 + 2.9372 相信,看到这里应该对回归有了基本的了解了

线性回归

青春壹個敷衍的年華 提交于 2019-12-16 02:52:08
线性回归 线性回归(Liner Regression) 回归(regression)与分类(classification) 回归基本形式的解释 最小二乘法 损失函数 求最小损失下的参数w 概率的视角 极大似然估计 几何视角 线性回归(Liner Regression) 回归(regression)与分类(classification) 1.分类问题输出的值是离散的,回归问题输出的值是连续的 e.g. 预测明天的温度,预测明天是否下雨 2.分类问题输出的值是定性的,回归问题输出的值是定量的 3.损失函数不同 回归基本形式的解释 f(x i ) = w T x i + b x若是一维则可以写成f(x) = wx + b,是个很熟悉的直线方程 x若是四维: x1 x2 x3 x4 y 0.1 16 1 2 1.1 0.2 12 2 3 2.2 0.3 10 3 4 3.2 上表展示了,某特征x1,x2,x3,x4和标签y,其中x1,x2,x3,x4构成x向量,但是标签y却是标量。所以需要将向量x转换成标量(点乘结果为一个数值),及 w T x 最小二乘法 注:二乘,即平方 思想:让总的误差的平方最小的y就是真值,这是基于——如果误差是随机的,应该围绕真值上下波动。 上图描述的是,一条真实的直线,如果误差是随机的,那么采样得到的样本点应该在对应位置满足 高斯分布 ,即围绕真值波动。 那么使

逻辑回归与线性回归的区别

白昼怎懂夜的黑 提交于 2019-12-16 00:19:17
logistic回归与线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。 与线性回归不同,逻辑回归主要用于解决分类问题,那么线性回归能不能做同样的事情呢?下面举一个例子。比如恶性肿瘤和良性肿瘤的判定。假设我们通过拟合数据得到线性回归方程和一个阈值,用阈值判定是良性还是恶性: 如图,size小于某值就是良性,否则恶性。但是“噪声”对线性方程的影响特别大,会大大降低分类准确性。例如再加三个样本就可以使方程变成这样:      那么,逻辑斯特回归是怎么做的呢?如果不能找到一个绝对的数值判定肿瘤的性质,就用概率的方法,预测出一个概率,比如>0.5判定为恶性的。 2.2 Sigmoid函数   逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越趋向于0,越小越趋近于1。   函数的图像如下图,x

线性回归-API

折月煮酒 提交于 2019-12-14 18:26:34
线性回归的定义 利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式 线性回归的分类 线性关系 非线性关系 损失函数 最小二乘法 线性回归优化方法 正规方程 梯度下降法 正规方程 -- 一蹴而就 利用矩阵的逆,转置进行一步求解 只是适合样本和特征比较少的情况 梯度下降法 — 循序渐进 梯度的概念 单变量 -- 切线 多变量 -- 向量 梯度下降法中关注的两个参数 α -- 就是步长 步长太小 -- 下山太慢 步长太大 -- 容易跳过极小值点(*) 为什么梯度要加一个负号 梯度方向是上升最快方向,负号就是下降最快方向 梯度下降法和正规方程选择依据 小规模数据: 正规方程:LinearRegression(不能解决拟合问题) 岭回归 大规模数据: 梯度下降法:SGDRegressor sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 参数 fit_intercept:是否计算偏置 属性 LinearRegression.coef_:回归系数 LinearRegression.intercept_:偏置 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True,

线性回归问题

心不动则不痛 提交于 2019-12-13 01:58:41
线性回归 线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 例如: 有三个样本点(1,1),(2,2),(3,3) 我们假设函数为: 用这个函数表示样本点的模型,此时要找到合适的模型就要确定θ1的最佳值 代价函数 为确定合适的θ1,就要设定代价函数,我们用最小二乘法来表示代价函数: 此时即成为了以θ1为变量的函数,那么使代价最小的θ1的值即为所求 函数图像为: 再复杂一点,如果样本为下图: 那么假设函数为: 代价函数为: 所得代价函数的图像为: 参考吴恩达机器学习课程 来源: https://www.cnblogs.com/sfencs-hcy/p/12032817.html

[ch05-00] 多变量线性回归问题

我与影子孤独终老i 提交于 2019-12-11 16:57:49
系列博客,原文在笔者所维护的github上: https://aka.ms/beginnerAI , 点击star加星不要吝啬,星越多笔者越努力。 第5章 多入单出的单层神经网络 5.0 多变量线性回归问题 5.0.1 提出问题 问题:在北京通州,距离通州区中心15公里的一套93平米的房子,大概是多少钱? 房价预测问题,成为了机器学习的一个入门话题,著名的波士顿的房价数据及相关的比赛已经很多了,但是美国的房子都是独栋的,前院后院停车库游泳池等等参数非常多,初学者可能理解起来有困难。我们不妨用简化版的北京通州的房价来举例,感受一下房价预测的过程。 影响北京通州房价的因素有很多,居住面积、地理位置、朝向、学区房、周边设施、建筑年份等等,其中,面积和地理位置是两个比较重要的因素。地理位置信息一般采用经纬度方式表示,但是经纬度是两个特征值,联合起来才有意义,因此,我们把它转换成了到通州区中心的距离。 我们有1000个样本,每个样本有两个特征值,一个标签值,示例如表5-1。 表5-1 样本数据 样本序号 地理位置 居住面积 价格(万元) 1 10.06 60 302.86 2 15.47 74 393.04 3 18.66 46 270.67 4 5.20 77 450.59 ... ... ... ... 特征值1 - 地理位置,统计得到: 最大值:21.96公里 最小值:2.02公里

[ch05-00] 多变量线性回归问题

孤街浪徒 提交于 2019-12-11 12:18:35
系列博客,原文在笔者所维护的github上: https://aka.ms/beginnerAI , 点击star加星不要吝啬,星越多笔者越努力。 第5章 多入单出的单层神经网络 5.0 多变量线性回归问题 5.0.1 提出问题 问题:在北京通州,距离通州区中心15公里的一套93平米的房子,大概是多少钱? 房价预测问题,成为了机器学习的一个入门话题,著名的波士顿的房价数据及相关的比赛已经很多了,但是美国的房子都是独栋的,前院后院停车库游泳池等等参数非常多,初学者可能理解起来有困难。我们不妨用简化版的北京通州的房价来举例,感受一下房价预测的过程。 影响北京通州房价的因素有很多,居住面积、地理位置、朝向、学区房、周边设施、建筑年份等等,其中,面积和地理位置是两个比较重要的因素。地理位置信息一般采用经纬度方式表示,但是经纬度是两个特征值,联合起来才有意义,因此,我们把它转换成了到通州区中心的距离。 我们有1000个样本,每个样本有两个特征值,一个标签值,示例如表5-1。 表5-1 样本数据 样本序号 地理位置 居住面积 价格(万元) 1 10.06 60 302.86 2 15.47 74 393.04 3 18.66 46 270.67 4 5.20 77 450.59 ... ... ... ... 特征值1 - 地理位置,统计得到: 最大值:21.96公里 最小值:2.02公里

监督学习线性回归算法

◇◆丶佛笑我妖孽 提交于 2019-12-11 01:50:28
假设(基于二维) 训练集 \[ \begin{bmatrix} 1&x_{11}&{\cdots}&x_{1n}\\ 1&x_{21}&{\cdots}&x_{2n}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ 1&x_{m1}&{\cdots}&x_{mn}\\ \end{bmatrix}* \begin{bmatrix} \theta_{0}\\ \theta_{1}\\ {\vdots}\\ \theta_{n}\\ \end{bmatrix}= \begin{bmatrix} y_{1}\\ y_{2}\\ {\vdots}\\ y_{n}\\ \end{bmatrix} \] 表达式 \[h_\theta(x)=\theta_0+\theta_1x_1+...+\theta_nx_n...x为向量\] 定义代价函数 \[J_\theta(\theta_0,\theta_1,\theta_2,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}({h_\theta(x^i)-y(x^i)})^2\] 梯度下降法 \[min_{\theta_0...\theta_n}J(\theta_0,\theta_1,\theta_2,...,\theta_n)\] \[\theta_j=\theta_j-\alpha