线性回归预测的基础,最小二乘法,学习推导过程的时候,对这个概念不是特别清楚。在网上整理的这个正好可以满足我对它的理解,特此记录
在估计方法中,最大似然和最小二乘是经常被使用到的,其中的最小二乘更是回归的基础。楼主在刚接触最小二乘的时候曾经想过一个问题,为什么非要用平方?绝对值不行么?……很多问题萦绕脑中。略微整理了一下分享给大家:
1、什么是最小二乘思想?
简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出,最小二乘也可用于拟合数据模型。
这当中涉及到如下问题:
①观测点和距离点的距离:这个距离也被称为误差。既然要估计,总希望找到最好的估计值,那么误差越小越好。
②为什么是距离的平方和:距离的平方和也就是误差的平方和,既然误差越小越好,那是否可以用绝对值来代替?;楼主觉得用绝对值代替的这个想法是可以的,只是在之后的运算求值时处理比较复杂。(楼主隐约记得取绝对值最小的方法好像是最小一乘法)
③为什么平方求解方便呢?那就要从公式讲起了(楼主说好不上复杂公式推导的,好吧,这里就简单描述一下吧……)
设拟合直线是
整理后对方程组求解
最终解得
2、什么时候用最小二乘法
在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立经验方程。例如,在现实世界中,这样的情形大量存在着:两个变量X和Y(比如身高和体重)彼此有一些依赖关系,由X可以部分地决定Y的值,但这种关系又是不确定的.人们常常借助统计学中的回归模型来寻找两个变量之间的关系,而模型的建立当然是依据观测数据.首先通过试验或调查获得x和Y的一组对应关系(x1,Y1),(x2,Y2),…,(xn,Yn),然后回答下列5个问题:
1. 这两个变量是否有关系?(画出散点图,作直观判断)
2. 这些关系是否可以近似用函数模型来描述?(利用散点图、已积累的函数曲线形状的知识和试验数据,选择适当的回归模型,如一元线性模型,二次函数模型等)
3. 建立回归模型.
4. 对模型中的参数进行估计,最小二乘法是这些参数的一种常用估计方法.
5. 讨论模型的拟合效果.
来源:oschina
链接:https://my.oschina.net/u/1246109/blog/799969