《Attack ML Models
Attack ML Models - 李宏毅 https://www.bilibili.com/video/av47022853 Training的Loss:固定x,修改θ,使y0接近ytrue. Non-targeted Attack的Loss:固定θ,修改x,使y‘远离ytrue. Targeted Attack的Loss:固定θ,修改x,使y‘远离ytrue且接近yfalse. constraint:x‘和原图像x0的相似度,必须小于阈值ε.有多种计算方法,如L2-norm,L-infinity,因为取决于人类感知,一般采用L-infinity. 对抗攻击即生成对抗样本x’,它要使得损失函数L(x‘)尽可能小,同时确保相似度d(x0,x’)小于ε. 采用梯度下降法进行,x0作为初始值进行迭代.如果相似度超过ε,则对xt进行修正. 具体修正策略为,找到小于ε且与当前xt最接近的x. 图片特征一般是很高维的,在某些维度上如图1,tiger cat的置信度范围很广且附近都是cat,在另一些维度上如图2,tiger cat的置信度很窄且附近时不相干的事物. 不同的对抗攻击方法,区别一般在于采用不同的距离限制方式与不同的优化策略. FGSM是一种常见的对抗攻击方法,它的原理是计算出分类函数loss的梯度,然后用sign函数将其指向四个角的方向之一,再乘上ε使其落在角上