如何理解线性回归中的“回归”,回归到哪里?

我们两清 提交于 2019-12-02 12:32:40

原文地址:https://blog.csdn.net/Laputa_ML/article/details/80100739

如何理解线性回归中的“回归”,回归到哪里?先看看线性回归的英文regression towards the mean。mean在英文中是平均值的意思。
那么平均值又怎么理解呢?个人觉得如果能和另外几个值联合起来思考更有助于理解。它们是——真实值、测量值。
 
真实值
就是一个物体的真实的值。比如桌面的长度的真实值。真实值有什么特点呢?
1、真实值确定存在,比如桌子的长度一定存在一个值。
2、人类永远无法得到真实值,这个比较难以理解了,为什么无法得到真实值,还是永远呢?——因为误差永远存在,无论使用多么精密的测量仪器,无论测量者多么认真仔细,无论测量多少次,误差用用存在,人类永远无法得到真实值。(你要有点哲学思维才能理解)
 
测量值
测量值就是人类测量桌面长度得到的值,上面说过,测量值由于误差的存在,一定不等于真实值。
 
平均值
通俗的理解就是多次测量结果求算术平均数的平均值。那么平均值和真实值之间是什么关系呢?个人理解如下:
1、在有限次测量次数的前提下,平均值永远不会等于真实值
2、当测量次数增加的前提下,平均值会接近真实值
3、当测量次数达到无穷∞∞的时候,平均值等于真实值
1和2都很好理解,因为误差的存在导致的。
那么3为什么当测量次数达到∞∞的时候,平均值等于真实值呢?因为当测量次数达到无限的话,无限次的测量中每次测量产生的误差之间最终会相互抵消。举例说明:用尺子测量桌面的长度会受到温度的影响,因为温度会使尺子热胀冷缩而产生误差。那么我们来做一次假设:
    有一张桌子,桌面的真实长度是20cm,即真实值是200mm
    假设某一次测量的时候温度高,尺子热胀了,那么测量值就比真实值小了。再假设第二次测量的时候温度又低了,尺子冷缩了,那么测量值就比真实值大了。那么两次测量的误差就抵消了。
    但是可能没有完全抵消。比如第一次热涨的时候测小了10mm,测量值是190mm,冷缩的时候测大了8mm,测量值是208mm,那么平均值是(190+208)/2=199mm,这个值不等于真实值。那么我们多测量几次呢?有可能每一次测量的误差相互抵消的越来越小,也就越来越接近真实值。那么什么时候等于真实值呢?只有等测量次数达到∞∞的时候,每次测量的误差可以完全抵消,这是平均值一定等于真实值。
    但是这不和上面所说的人类永远无法得到真实值相矛盾吗?不矛盾,因为人类、凡人永远无法做到∞∞,∞∞的特点有两个:
    1、你可以无限接近∞∞
    2、你永远无法达到∞∞
    由于第二点的存在,人类永远无法做到测量∞∞次,那么人类永远无法得到物体的真实值。
    那么回到题目,到底什么是回归,回归到哪里?就是回归到真实值,或者叫回归到事物的本质。
    上面说过,当测量次数越多的时候,平均值越接近真实值,这也说明了为什么必须要大数据才行。当数据量足够大的时候,我们得到的均值越接近事物的本质——真实值,也就是说线性回归方程就是回归到事物的本质——真实值。
 
平均值与回归方程之间的关系
可能有人看不出求平均值的公式和回归方程公式有什么关系,因为这两个公式表面上看上去确实长得不像。
求算术平均值公式:
x1+x2+x3+…..+xnnx1+x2+x3+…..+xnn
回归方程公式:
y = w0w0 + w1w1x1x1 + w2w2x2x2 + …… + wnwn*xnxn
参考以前的这篇文章线性回归
均值,其实是针对实验观察到的特征样本而言的。比如我们实验结果得出了x1x1,x2x2,x3x3…..xnxn这n个值,那么我们的均值计算是
x1+x2+x3+…..+xnnx1+x2+x3+…..+xnn
比如我们进行掷骰子,掷了六次,点数分别为2,2,2,4,4,4,这六次的观察就是我们的样本,于是我们可以说均值为(2+2+2+4+4+4)/6=3。那么这个公式怎么看上去都和回归方程长得不一样,但是将均值的公式变换一下:
(2+2+2+4+4+4)/6 = 3
3 = (2+2+2+4+4+4)/6
3 = 1/6*2 + 1/6*2 + 1/6*2 + 1/6*4 + 1/6*4 + 1/6*4
再看上面这个公式是不是和回归方程有点像了呢?如果将3看做y,2,2,2,4,4,4看做x1x1、x2x2、x3x3、x4x4、x5x5、x6x6,那么公式就是
y = 1616x1x1 + 1616x2x2 +1616x3x3 +1616x4x4 +1616x5x5 +1616x6x6
是不是已经非常像回归方程了?只是回归方程的权重是加权的,而平均值的权重是等权的。这就解释了为什么y是均值了。
y = w0w0 + w1w1x1x1 + w2w2x2x2 + w3w3x3x3 + w4w4x4x4 + w5w5x5x5 + w6w6x6x6
其实可以看出来,回归方程的y其实就是加权均值,均值就是等权均值,但实质是相同的。所以说回归方程中的y就是均值mean。
 
总结
数学的概念其实是为了满足人类生产生活的需要,人类生产生活中人们关心的是哪个值?肯定不是测量值,因为误差永远存在,人类关心的是事物的本质,也就是真实值,人类生产生活想要得到的就是真实值,回归就是要回归到真实值。
虽然测量值并不是人类想要的,但是真实值确实人类永远无法得到的,那么人类通过数学统计学原理,使用测量值来推测真实值,推测方法就是尽可能增大测量次数,求取多次测量的均值,而测量次数越多,得到的均值越接近真实值。
上面说过,人类,凡人是做不多测量∞∞次数,假设你是上帝,你是如来,你是神,那你可以做到测量∞∞次,此时均值y=真实值。
y = x1+x2+x3+…..+xnnx1+x2+x3+…..+xnn = 真实值 (其中,n=∞∞)
 
线性回归方程中几个概念
example就是样本,examples就是样本集合,但是一般称作样本空间。
feathers成为特征,也就是回归方程中的x1x2x3…..xnx1x2x3…..xn 
x0x0 = 1 是方程的截距。
β1β2β3…..βnβ1β2β3…..βn是每一个特征(x)发生的概率。
outcome:就是人类期望得到的真实值,但是我们得到的outcome是接近真实值的均值。
ξ 指的就是每个example和真实值之间的偏差,误差。
————————————————
版权声明:本文为CSDN博主「Laputa_ML」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Laputa_ML/article/details/80100739
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!