论文笔记·优化：Regression Shrinkage and Selection via the Lasso

SUMMARY

• LASSO在系数绝对值之和小于某个常数的情况下，使残差平方和最小。往往使一些系数精确的等于0，所以给出了具有解释力的模型；

• LASSO具有一些子集选择和岭回归的优点。像子集选择一样，它可以得到具有解释力的模型；想岭回归一样，它具有稳定性。

INTRODUCTION

• 普通最小二乘（OLS）估计通过最小化残差平方和获得。OLS估计的局限性是：

（1）预测精度：OLS估计具有低偏差（拟合训练集的误差低）和高方差（模型的泛化能力弱），通过收缩（shrinking）方法或令某些系数为0可使预测能力提高，即牺牲一些偏差来降低方差；

（2）解释能力：当解释变量非常多时，往往选出其中一小部分对响应值进行最有效的解释。

• 岭回归（Ridge Regression）：

避免不可逆的情况，并且相对于OLS，w向原点压缩，但不会出现某一系数为0的稀疏解的情况。

• OLS估计的两种改进：

（1）子集选择

Cons：通过筛选变量增加了模型的解释能力；

Pron：模型不稳健。因为选择变量是一个离散的过程，变量要么保留要么舍弃，数据的微小变动会导致模型很大的不同，降低预测的准确性。

（2）岭回归

Cons：是一个连续的、收缩系数的过程，因此较为稳定；

Pron：不能精确地把系数收缩到0，所以不容易给出解释力强的模型。

• LASSO（ Least Absolute Shrinkage and Selection Operator ）可以把系数精确收缩到0，所以保留了子集选择和岭回归的优点。

2 THE LASSO

2.1 Definition

• 一个类似的模型：non-negative garotte

garotte的预测误差比子集选择低，效果和岭回归差不多。缺点是garotte直接使用了OLS估计，如果OLS估计量本身表现差，那么garotte也表现差。

• LASSO避免了对OLS估计量的直接使用

参数 t 控制了对回归系数的压缩量。

2.2 Orthonormal Design Case

• LASSO的解为：

• 子集选择回归、岭回归、LASSO、garottte 的解函数：

2.3 Geometry of Lasso

2.4 More on Two-predictor Case

• 岭回归收缩与变量的相关性有很大关系。当相关系数为0时，岭回归按比例对系数收缩，而当相关系数较大时，收缩量关于限制的强弱不单调，当限制变弱时收缩量反而变大。

2.5 Standard Errors

• 使用bootstrap估计参数标准差。首先将惩罚项改写为，然后借助岭回归来估计系数的协方差矩阵：。利用这个近似可以使用一个岭回归的迭代算法来计算lasso估计，效率很低，但对选择t很有用。

3 EXAMPLE-PROSTATE CANCER DATA

当s趋于0时，每个系数都趋向于0.在这个例子中，曲线是单调的，但在通常情况下可能不是单调的，岭回归和子集选择也有这种非单调性。

4 PREDICTION ERROR AND ESTIMATION OF t

5 LASSO AS BAYES ESTIMATE

6 ALGORITHMS FOR FINDING LASSO SOLUTIONS

7 SIMULATIONS

8 APPLICATION TO GENERALIZED REGRESSION MODELS

11 DISCUSSION

• 对于少数变量有较大的解释力——子集选择最优，LASSO效果不很好，岭回归很差；

对于中等解释力的变量不多不少——LASSO最好，岭回归次之，子集选择再次之；

对于很多变量有较小的解释力——岭回归平均表现最好，LASSO次之，子集选择再次之。

• Frank和Friedman通过在残差平方和上加入惩罚项推广了岭回归和子集选择，称为bridge。子集选择相当于q→0。q‹1就不是凸优化了。

• LASSO优点：

（1）连续选择变量

（2）压缩系数+特征选择

（3）具有可解释性

来源：https://www.cnblogs.com/klw6/p/11634560.html

标签

lasso

岭回归