https://blog.openai.com/robust-adversarial-inputs/?spm=a2c4e.11153940.blogcont149583.11.4ab360c0mXrtX7
原文中包含视频例子。
我们创建的图像可以在从不同的尺度和视角观察时可靠地欺骗神经网络分类器。 这挑战了上周声称自动驾驶汽车难以恶意欺骗,因为它们从多个尺度,角度,视角等捕获图像。
这张印刷在标准彩色打印机上的小猫照片让分类器误以为它是一台“显示器”或“台式电脑”,无论它是如何缩放或旋转的。 我们期望进一步的参数调整也会删除任何人类可见的伪像。
参照论文1.Synthesizing Robust Adversarial Examples
开箱即用的对抗样本在图像转换下失败。 下面,我们展示了相同的猫图片,由ImageNet上训练的Inception v3错误地归类为台式计算机。 缩小至1.002会导致正确标签“tabby cat”虎斑猫的分类概率覆盖对抗性标签“desktop computer”台式计算机。
然而,我们怀疑积极的努力可以产生一个强大的对抗性的例子,因为已经证明对抗性的例子转移到物理世界。(参照论文4.Adversarial examples in the physical world)
尺度不变的对抗样本
可以使用称为投影梯度下降(projected gradient descent )的优化方法来创建对抗性示例,以找到任意欺骗分类器的图像的小扰动。
我们优化了大量随机分类器,而不是优化用于从单个视点查找对抗性的输入,这些随机分类器在对输入进行分类之前随机重新缩放输入。 针对这样的集合进行优化会产生强大的对称示例,这些示例是规模不变的。
即使我们仅修改与猫相对应的像素,我们也可以创建一个在所有所需尺度上同时具有对抗性的单个扰动图像。
转换不变的对抗性例子
通过向我们的训练扰动添加随机旋转,平移,缩放,噪声和平均移位,相同的技术产生单个输入,在任何这些变换下仍然是对抗的。
一个变换不变的对抗样本。 请注意,它明显比其规模不变的变体更加稳定。 这可能是基本的:直觉上可能的是,小的对抗性扰动更难找到一个不容改变样本的更多变换。
我们的变换在测试时随机抽样,证明我们的例子对整个变换分布是不变的。
来源:oschina
链接:https://my.oschina.net/u/4363202/blog/3749939