把人骑马变成人牵着马，这篇 CVPR2020 论文实现语义级别图像修改

　　图像修改是图像生成领域的一个特殊任务，它要求生成对原图进行修改后得到的图片。例如常用的美颜、修图软件，可以得到原照调整后的美颜人像。目前，绝大多数的图片操纵和生成都是在像素级别进行的。随着技术的进步，基于语义的图像修改和生成成为可能。

　　一篇 CVPR2020 的论文 Semantic Image Manipulation Using Scene Graphs 就聚焦图片语义级别修改问题，实现针对场景图的修改图片生成问题。即给定一张图片，先生成一个表示图片中出现的对象及其关系的语义场景图，用户可以利用场景图方便地修改其中的节点（对象）和边（关系），模型再根据这些修改后的场景图和原图生成修改后的图片，如图一所示。

　　这需要模型对原图中的对象进行替换或者改变原图中对象之间的关系，但还要保持生成的图片和原图中语义关系以及风格一致。

　　图丨基于语义关系的图片修改。基于原图（source image），模型首先生成场景图，接下来用户对场景图进行修改，最后模型根据修改的场景图生成新的图片。图中用户将女孩和马的关系由 “骑” 变为“在旁边”（来源：Semantic Image Manipulation Using Scene Graphs）

　　高层级的图片修改是以语义为中心的，这项技术有广泛的应用场景。

　　编辑旅行风景照时，不需要再手动切割、删除其中多余的旅客，直接在场景图中删除相应的对象节点即可。用户还可以轻松地重新安排对象之间的空间关系，重新排列天空中云的位置，创造出更美的图片。该技术还可以应用到机器人领域。当要求机器人 “把房间收拾干净” 时，可通过该技术构建出整理后的房间图片，帮助机器人完成任务。

　　要利用深度学习技术解决这一问题，首先面临的难题就是训练数据。给定图片 I，需要得到场景 G, 修改后的场景图 g 以及修改后得到的图片 i。要得到这样的训练数据非常困难。在本文中，作者提出了一个空间语义场景图网络（spatio-semantic scene graph network），巧妙避开了数据难题。该模型不需要针对场景图的修改操作或者是图片编辑的直接监督信息，而可以直接利用现存的数据集进行学习。

　　图丨模型示意图（来源：Semantic Image Manipulation Using Scene Graphs）

　　空间语义场景图网络的结构如图所示。在测试阶段，模型首先利用比较成熟的技术，为输入的图片生成场景图，表示图片中出现的对象和它们之间的关系。接下来，用户对场景图进行修改。最后，模型根据用户的修改操作进行图片生成。

　　而在训练阶段，输入一张图片，模型首先利用预训练模型对图片中的物体进行检测，提取这些对象的视觉特征（包括属性信息和位置信息）。接下来，模型利用比较成熟的技术为图片生成其场景图。然后，模型以一定的概率将图片中的一些对象和提取的视觉特征遮盖。最后，模型根据被遮盖的，残缺不全的原图和场景图重构原图。通过这样的方式，模型不需要（I，G，g，i）作为训练数据，而可以利用大量易得的显存图片数据集。

　　那么为什么遮盖 - 重构的过程可以在训练阶段代替修改 - 重构的过程？

　　以女孩骑马的图片为例。当将女孩和马的关系‘骑’修改为‘在旁边’时，模型需要重新安排这些物体的空间位置关系，也就是将原有的关系丢弃，根据修改后的场景图和其他对象以及关系信息重构图像。这个丢弃原有关系重新预测的过程，就可类比为将特征遮盖并预测的过程。

　　作者在 CLVER 和 Visual Genome 两个数据集上进行了试验。CLVER 数据集是利用模拟器生成的合成数据集，可以得到图片的修改操作和修改前后的信息，便于对模型进行定量的分析。Visual Genome 数据集则可测评该模型在无限制的真实场景中的效果。

　　图丨 CLVER 实验结果示例。(a)修改物体的空间关系（b）物体移除（c）物体属性修改 (d)物体增添（来源：Semantic Image Manipulation Using Scene Graphs）

　　CLVER 模拟器可以生成不同颜色的几何形体，并任意操纵它们的位置。作者利用该模拟器生成如图三所示的图片，并对这些图片进行修改，得到修改后的图片，最终得到 21，310 对图片。在该数据集上，作者将提出的无监督模型（训练时仅使用原图片）与有监督方法 sg2im（训练时使用原图片和修改后的图片）进行对比，结果如图 4 所示。可以看到，无监督方法在包含全部像素点的 4 个测评指标中，有一明显超过有监督方法，一个与之不相上下。而在针对相关区域的测评中，两个指标均胜过有监督方法。

　　图丨本文提出的无监督模型与有监督方法在 CLVER 数据集上的对比结果。MAE：平均绝对误差；SSIM：结构相似性；LPIPS：感知误差，FID：生成图片与原图的距离。（来源：Semantic Image Manipulation Using Scene Graphs）

　　图丨利用无监督模型对真实图片进行修改。a）对象替换。b）物体关系修改。c）对象移除（来源：Semantic Image Manipulation Using Scene Graphs）

　　最后，作者在 Visual Genome 数据集上进行试验，以测评模型在真实场景中的效果。由于无法得到每张真实场景修改后的图片，作者通过图片重构的方式进行评估。上图展示了该模型在真实场景图片中的应用。可以看到，这种方法可以帮助用户对图片进行语义层面的操纵修改。

　　从这篇论文谈开，我们已经看到，随着 CV 技术的发展，对图片的操纵，换脸、合成、修改正变得越来越容易，合成的图片也越来越逼真。在这些技术为人们带来新奇体验的同时，如何警惕其不被滥用会是一个重要的议题。

　　-End-

　　责编：黄珊

　　https://arxiv.org/pdf/2004.03677.pdf

来源：oschina

链接：https://my.oschina.net/u/4415966/blog/4301321

标签

Semantic

genome