记录一下李宏毅机器学习课程关于对抗攻击的内容;
1、
一般模型training过程:
输入x_0,调整模型Network的参数θ,使得输出y_0和y_true的loss越小越好;损失函数:L_train(θ) = C(y_0, y_true)
Non-targeted Attack:
固定模型Network的参数θ,调整输入x',使得输出y'和y_true越远越好;损失函数:L(x') = -C(y', y_true)
Targeted Attack:
固定模型Network的参数θ,调整输入x',使得输出y'和y_true越远越好,同时让y'和某个y_false越近越好; L(x') = -C(y', y_true) + C(y',y_false)
Constraint:
约束:d(x_0,x') ≤ ε,希望攻击后的图片不要被人所发现,x_0和x'够相近
常见的有两种约束,L2-norm和L-infinity
1)L2-norm
d(x_0, x') = ||x_0 - x'||2
= (Δx_1)2+ (Δx_2)2+ (Δx_3)2+...
2) L-infinity
d(x_0, x') = ||x_0 - x'||∞
=max{ Δx_1, Δx_2+ Δx_3+...}
来源:https://www.cnblogs.com/yqpy/p/12207640.html