ICLR2015_Explaining and Harnessing Adversarial Examples
Author 一作: Ian Goodfellow 三作: Christian Szegedy Abstract 之前认为对抗样本对模型的欺骗性是因为模型的高度非线性和过拟合,本文证明了模型的易损性主要是因为模型的线性本质。而且本文提供了一个简单且快速的方法产生对抗样本,将产生的样本用于对抗训练可以提升模型的测试性能。 Introduction 在高维空间的线性行为已经足够产生对抗样本,这种观点可以是我们设计一种简单且快速的方法用以生成对抗样本使得对抗训练实用化(FGSM, Fast Gradient Sign Method) 我们发现对抗训练可以提供额外的正则化。 非线性才能抵抗对抗干扰,长远来看,我们设计更加强大的优化方法用以训练更加非线性的模型来提高模型的对对抗样本的抗性 Related Work 现在已经有人开始设计抵抗模型,但是还没有任何一个模型保持在clean inputs上的高准确率的同时具有抵抗力 Linear explanation the precision of an individual input feature is limited. 输入的精度是有限的,比如说rgb图像,每个像素是8bit, 精度就是1/255 所以分类器不可能对输入x和 对抗样本 x+delta 做出不同的相应,如果delta比精度还小