L2正则和权值衰减的区别 L2 Regulation vs Weight Decay

时光总嘲笑我的痴心妄想 提交于 2020-01-19 21:49:35

对于L2 Regulation 和 Weight Decay,假设原来的损失函数是ff,
对于有Weight Decay的参数更新规则如下:
θt+1=θtαft(θt)λθt, \theta_{t+1}=\theta_{t}-\alpha \nabla f_{t}\left(\theta_{t}\right)-\lambda \theta_{t},
其中λ\lambda是权值衰减的系数,α\alpha是学习率。


对于有L2 Regulation的参数更新规则如下:
θt+1=θtαf(θt)αλθt, \theta_{t+1}=\theta_{t}-\alpha \nabla_{f}\left(\theta_{t}\right)- \alpha\lambda^{\prime} \theta_{t},
其中λ\lambda^{\prime}是L2正则的系数。
可见,只有当λ=αλ\lambda=\alpha\lambda^{\prime},即λ=λ/α\lambda^{\prime}=\lambda/\alpha时,L2 Regulation 和 Weight Decay在数值上才是完全等价的。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!