L2正则和权值衰减的区别 L2 Regulation vs Weight Decay
对于L2 Regulation 和 Weight Decay,假设原来的损失函数是 f f f , 对于有Weight Decay的参数更新规则如下: θ t + 1 = θ t − α ∇ f t ( θ t ) − λ θ t , \theta_{t+1}=\theta_{t}-\alpha \nabla f_{t}\left(\theta_{t}\right)-\lambda \theta_{t}, θ t + 1 = θ t − α ∇ f t ( θ t ) − λ θ t , 其中 λ \lambda λ 是权值衰减的系数, α \alpha α 是学习率。 对于有L2 Regulation的参数更新规则如下: θ t + 1 = θ t − α ∇ f ( θ t ) − α λ ′ θ t , \theta_{t+1}=\theta_{t}-\alpha \nabla_{f}\left(\theta_{t}\right)- \alpha\lambda^{\prime} \theta_{t}, θ t + 1 = θ t − α ∇ f ( θ t ) − α λ ′ θ t , 其中 λ ′ \lambda^{\prime} λ ′ 是L2正则的系数。 可见,只有当 λ = α λ ′ \lambda=\alpha