岭回归 | 易学教程

岭回归——减少过拟合问题

阅读更多关于岭回归——减少过拟合问题

什么是过拟合？在训练假设函数模型h时，为了让假设函数总能很好的拟合样本特征对应的真实值y，从而使得我们所训练的假设函数缺乏泛化到新数据样本能力。怎样解决过拟合过拟合会在变量过多同时过少的训练时发生，我们有两个选择，一是减少特征的数量，二是正则化，今天我们来重点来讨论正则化，它通过设置惩罚项让参数θ足够小，要让我们的代价函数足够小，就要让θ足够小，由于θ是特征项前面的系数，这样就使特征项趋近于零。岭回归与Lasso就是通过在代价函数后增加正则化项。多元线性回归损失函数：岭回归回归代价函数：岭回归的原理我们从矩阵的角度来看。机器学习的核心在在于求解出θ使J(θ)最小。怎样找到这个θ，经典的做法是使用梯度下降通过多次迭代收敛到全局最小值，我们也可以用标准方程法直接一次性求解θ的最优值。当回归变量X不是列满秩时， XX'的行列式接近于0，即接近于奇异，也就是某些列之间的线性相关性比较大时，传统的最小二乘法就缺乏稳定性，模型的可解释性降低。因此，为了解决这个问题，需要正则化删除一些相关性较强特征。标准方程法：加上正则化后：这里，λ>=0是控制收缩量的复杂度参数：λ的值越大，收缩量越大，共线性的影响越来越小。在不断增大惩罚函数系数的过程中，画出估计参数0（λ）的变化情况，即为岭迹。通过岭迹的形状来判断我们是否要剔除掉该特征（例如：岭迹波动很大，说明该变量参数有共线性）。