正则化

狂风中的少年 提交于 2019-12-05 11:32:20

正则化

解释

  • L1正则化在尖角处更大概率发生碰撞,此时的解\(w_1 = 0\)
  • L2正则化:使得模型的解偏向于范数较小的\(W\),通过限制\(W\)范数的大小实现了对模型空间的限制,从而在一定程度上避免了过拟合。不过岭回归并不具有产生稀疏解的能力,得到的系数仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观
  • L1正则化:能产生稀疏性,导致 W 中许多项变成零。 稀疏的解除了计算量上的好处之外,更重要的是更具有“可解释性”
  • L0正则化的值是模型参数中非零参数的个数,但难以求解。L1正则是L0正则的最优凸近似

约束解释

  • 带正则项和带约束条件是等价的。为了约束\(w\)的可能取值空间防止过拟合,加上约束(这里的限制条件是2范数,对应于L2正则化)的优化问题变为:

    \[\begin{aligned} \begin{cases} \mathop{\min} \sum \limits_{i=1}^N (y_i - w^Tx_i)^2 \\ s.t. ||w||^2_2 \leq m \end{cases} \end{aligned}​\]

  • 对应拉格朗日函数\(\sum \limits_{i=1}^N(y_i - w^Tx_i)^2 + \lambda (||w||_2^2 - m)\)

  • \(w^*\)\(\lambda^*\)分别是原问题和对偶问题的最优解,则根据KKT条件,它们应满足

    \[\begin{aligned} \begin{cases} 0 = \nabla_w \left( \sum \limits_{i=1}^N (y_i - w^{*T}x_i)^2 + \lambda^* (||w^*||_2^2 - m) \right) \\ s.t. 0 \leq \lambda^* \end{cases} \end{aligned}\]

  • 第一个式子对应了上图的L2正则化解空间

贝叶斯先验

  • L1相当于对模型参数\(w\)引入拉普拉斯先验
  • L2相当于引入高斯先验,而拉普拉斯先验使参数为0的可能性更大
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!