对于L2 Regulation 和 Weight Decay,假设原来的损失函数是fff, 对于有Weight Decay的参数更新规则如下:θt+1=θt−α∇ft(θt)−λθt, \theta_{t+1}=\theta_{t}-\alpha \nabla f_{t}\left(\theta_{t}\right)-\lambda \theta_{t}, θt+1=θt−α∇ft(θt)−λθt, 其中λ\lambdaλ是权值衰减的系数,α\alphaα是学习率。 对于有L2 Regulation的参数更新规则如下:θt+1=θt−α∇f(θt)−αλ′θt, \theta_{t+1}=\theta_{t}-\alpha \nabla_{f}\left(\theta_{t}\right)- \alpha\lambda^{\prime} \theta_{t}, θt+1=θt−α∇f(θt)−αλ′θt, 其中λ′\lambda^{\prime}λ′是L2正则的系数。 可见,只有当λ=αλ′\lambda=\alpha\lambda^{\prime}λ=αλ′,即λ′=λ/α\lambda^{\prime}=\lambda/\alphaλ′=λ/α时,L2 Regulation 和 Weight Decay在数值上才是完全等价的。 来源:CSDN作者:木有感情的机器人链接:https://blog.csdn.net/xiaojiajia007/article/details/104045066 标签 lambda 衰减系数