什么是正则化？简述一下范数的意义是？

正则化就是结构风险最小化策略的实现，是在经验风险最小化的情况下加入一个正则化项或者罚项。
范数是一种用来度量某个向量空间（或矩阵）中的每个向量的长度或大小的手段。

L1,L2正则化的原理和区别？为什么L1正则化会产生稀疏解而L2正则化会产生平滑解？

正则化是结构风险最小化策略的实现，L1和L2正则化属于正则化手段中的两种实现方式，L1正则化是在损失函数中加入参数向量中各个元素的绝对值之和作为损失函数的惩罚项的，L2正则化是在损失函数中加入参数向量中各个元素的平方，求和，然后再求平方根作为损失函数的惩罚项的。这就是二者的原理与区别。
在这里插入图片描述
L1正则化代表的约束条件的多维空间是超立方体和坐标轴存在很多“角”交点，目标函数大部分时候会在“角”的地方和约束条件相交，所以L1正则化容易产生稀疏的参数向量，而L2正则化是一个超球体，因为没有“角”交点，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了，所以L2正则化容易产生平滑的参数向量。
在这里插入图片描述
L1就是按绝对值函数的“坡”下降的，而L2是按二次函数的“坡”下降。所以实际上在0附近根据其梯度，L1的下降速度比L2的下降速度要快

L1和L2除了正则化防止过拟合还有什么作用

防止过拟合的具体表现：在不显著增大偏差的的同时，显著减小模型的方差

L1正则化除了防止过拟合还可以作为特征筛选的方法，使得对模型不是太重要的特征的权重系数趋于0，那么我们就可以根据具体情况来对特征进行删除和重选择，从而起到提高泛化性能以及节约内存空间，提升运行效率的作用。

L1正则不是连续可导的（L1正则怎么处理0点不可导的情形？）那么还能用梯度下降么，如果不能的话如何优化求解

由于lasso回归的损失函数是不可导的，所以梯度下降算法将不再有效，下面利用坐标轴下降法进行求解。

坐标轴下降法和梯度下降法具有同样的思想，都是沿着某个方向不断迭代，但是梯度下降法是沿着当前点的负梯度方向进行参数更新，而坐标轴下降法是沿着坐标轴的方向

在这里插入图片描述

坐标轴下降法进行参数更新时，每次总是固定另外m-1个值，求另外一个的局部最优值，这样也避免了Lasso回归的损失函数不可导的问题。
坐标轴下降法每轮迭代都需要O(mn)的计算。（和梯度下降算法相同）

Ridge和Lasso的实现，他们的区别是什么？分别是如何求解的？

Ridge=线性回归+L2正则，有闭合解；Lasso=线性回归+L1正则，无闭合解，可用坐标梯度下降求解

来源：CSDN

作者：iwtbs_kevin

链接：https://blog.csdn.net/qq_34219959/article/details/103855440

标签

正则化

l1范数正则化

面试——正则化

文章目录

什么是正则化？简述一下范数的意义是？

L1,L2正则化的原理和区别？为什么L1正则化会产生稀疏解而L2正则化会产生平滑解？

L1和L2除了正则化防止过拟合还有什么作用

L1正则不是连续可导的（L1正则怎么处理0点不可导的情形？）那么还能用梯度下降么，如果不能的话如何优化求解

Ridge和Lasso的实现，他们的区别是什么？分别是如何求解的？