回归方程

多重共线性

不羁的心 提交于 2020-03-05 07:51:03
多重共线性的概念:模型解释变量之间存在完全线性相关或不完全线性相关关系 产生的原因: (1)特征变量之间的内在联系 (2)特征变量在时间上有同方向变动的趋势 (3)某些变量的滞后 检验的方法: (1)相关性分析 (2) 方差膨胀因子 ​方差膨胀因子(Variance Inflation Factor,VIF):容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0<VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性 (3)条件系数检验 ​ 带来的影响: (1)ols估计量的方差增大 (2)难以区分每个解释变量的单独影响 解释变量之间的相关性,无法‘保证其它变量不变’ (3)变量的显著性检验失去意义 在多重共线性的影响下,系数估计标准差的增大将导致t统计量值的减小,是原来显著的t值变成不显著的,容易将重要的解释变量误认为是不显著的变量。 (4)回归模型缺乏稳定性 不同样本对模型的影响较大,若出现不合理的系数,首先考虑是否存在多重共线性 处理方法: (1)删除不重要的自变量 偏相关系数检验证实为共线性原因的那些变量中删除.。 (2)追加样本信息 多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。 (3)利用非样本先验信息 (4)改变解释变量的心酸

局部加权回归

不打扰是莪最后的温柔 提交于 2020-02-09 00:13:34
转载自 http://blog.csdn.net/silence1214/article/details/7764137 局部加权紧接着上面的线性回归中参数求解来继续讲吧。还是以上面的房屋价格的预测,它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的。比如上节中我们的回归方程为(这个地方用矩阵的方法来表示 Ɵ 表示参数, i 表示第 i 个样本, h 为在 Ɵ 参数下的预测值): 我们的目标是让 最小,然后求出来 Ɵ ,再代入 h 中就可以得到回归方程了。 但是如果类似以下的样本,他们的对应图如下: 如果用之前的方法,图中线为求出的回归方程,那么在 x 的取值和真实差别很大,这个情况叫做欠拟合。那么我们怎么办呢?我们的主要思想就是只对 x 的附近的一些样本进行选择,根据这些样本得到 x 附近这些样本所推倒出来的回归方程,那么此时我们得到的回归方程就比较拟合样本数据,得到的效果图如下: 我们解的思路如下,加入一个加权因子: 重新构造新的 j(x) Exp 是以 e 为低的指数,这个时候可以知道如果 x 距离样本很远的时候 w(i)=0 ,否则为 1 ,当我们预测一个值的时候就需要我们重新来计算当前的参数 Ɵ 的值,然后构造回归方程,计算当前的预测值。 这就是局部加权回归 LWR ! 来源: https://www.cnblogs.com

PLS系列002之多因变量线性PLS

别说谁变了你拦得住时间么 提交于 2019-12-22 13:41:21
多因变量线性偏最小二乘法 1 多因变量线性PLS 1.1 算法设计思想 1.2 计算推导 1.3 PLS性质 1.4 交叉性检验 Reference 1 多因变量线性PLS 在多元线性回归模型中,若一组自变量 X = ( x 1 , x 2 , x 3 , ⋯   , x i , ⋯ x p ) X=({{x}_{1}},{{x}_{2}},{{x}_{3}},\cdots ,{{x}_{i}},\cdots {{x}_{p}}) X = ( x 1 ​ , x 2 ​ , x 3 ​ , ⋯ , x i ​ , ⋯ x p ​ ) 和一组因变量 Y = { y 1 , y 2 , y 3 , ⋯   , y j , ⋯   , y q } Y=\{{{y}_{1}},{{y}_{2}},{{y}_{3}},\cdots ,{{y}_{j}},\cdots ,{{y}_{q}}\} Y = { y 1 ​ , y 2 ​ , y 3 ​ , ⋯ , y j ​ , ⋯ , y q ​ } ,当数据样本满足高斯-马尔科夫假设条件时,由least squares(最小二乘)有: Y ^ = ( X T X ) − 1 X T Y \hat{Y}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}Y Y ^ = ( X T X ) − 1 X T Y ,其中 Y ^ \hat

数据清洗:缺失值和异常值的处理方法 -- 回归方程充填缺失值的操作(附python代码)

倖福魔咒の 提交于 2019-12-18 20:30:40
回归方程填补缺失值的操作方法(附python代码) 1. 背景描述: 清洗过程中经常会遇到异常值和缺失值等问题,有时候,会把异常值看作缺失值来处理。一般的缺失值处理方法包括:删除、统计值充填(均值、中位数等)、回归方程预测充填等。 使用直接删除这种方法简单易行,但缺点是,在记录数据较少的情况下,会造成样本量的进一步减少,可能会改变响应变量的原有分布,造成分析结果不准确。因此,将异常值视为缺失值来处理的益处在于可以利用现有变量的信息进行建模挖掘,对异常值(缺失值)进行填补。(本文旨在探索如何使用回归方程进行预测估算,对异常值、缺失值进行充填的操作方法) 2. 应用场景: 回归方程充填法,是选择若干能预测缺失值的自变量,通过建立回归方程估算缺失值。该方法能尽可能地利用原数据集中的信息,但也存在一些不足之处:1. 虽然这是一个无偏估计,但会忽视随机误差,低估标准差和其他未知性质的测量值。2.使用前,必须假设存在缺失值所在的变量与其他变量是存在线性关系的,但现实它们不一定存在这样的线性关系,这可以借助统计工具来辨析,但往往更需要建模人员的实践经验和业务知识来进行分析和判断。 3. 方法步骤: a. 确定充填缺失值的变量(特征列) b. 拆分原始数据集: 根据需要充填缺失值的变量,把原始数据集拆分为2个子集(1. 不含有缺失值:dataset_train; 2. 只含有缺失值dataset

如何理解线性回归中的“回归”,回归到哪里?

我们两清 提交于 2019-12-02 12:32:40
原文地址: https://blog.csdn.net/Laputa_ML/article/details/80100739 如何理解线性回归中的“回归”,回归到哪里?先看看线性回归的英文regression towards the mean。mean在英文中是平均值的意思。 那么平均值又怎么理解呢?个人觉得如果能和另外几个值联合起来思考更有助于理解。它们是——真实值、测量值。 真实值 就是一个物体的真实的值。比如桌面的长度的真实值。真实值有什么特点呢? 1、真实值确定存在,比如桌子的长度一定存在一个值。 2、人类永远无法得到真实值,这个比较难以理解了,为什么无法得到真实值,还是永远呢?——因为误差永远存在,无论使用多么精密的测量仪器,无论测量者多么认真仔细,无论测量多少次,误差用用存在,人类永远无法得到真实值。(你要有点哲学思维才能理解) 测量值 测量值就是人类测量桌面长度得到的值,上面说过,测量值由于误差的存在,一定不等于真实值。 平均值 通俗的理解就是多次测量结果求算术平均数的平均值。那么平均值和真实值之间是什么关系呢?个人理解如下: 1、在有限次测量次数的前提下,平均值永远不会等于真实值 2、当测量次数增加的前提下,平均值会接近真实值 3、当测量次数达到无穷∞∞的时候,平均值等于真实值 1和2都很好理解,因为误差的存在导致的。 那么3为什么当测量次数达到∞∞的时候