Abstract

基于草图的图像检索(SBIR)是给定手绘草图，从自然图像数据库中检索图像的任务。现有的评价方法主要关注粗粒度的检索，即检索与草图属于同一个类别的图像，而不一定具有与草图相同的形状特征。而这导致现有方法只是简单地学习如何将草图与seen class联系起来，而无法推广到unseen class。因此，本文提出zero-shot SBIR，在unseen class上评价模型性能。并且，通过实验证明了现有的SBIR方法（基于判别式方法训练）只能学习到sketch-image到类别的映射关系（class specific mappings），无法推广到zero-shot场景。为了避免这种情况，提出生成式方法（基于Variational Autoencoders和Adversarial Autoencoders的深度条件生成模型），将草图作为输入，并随机填充缺失信息（通过生成草图中缺失的信息来检索相似图像）。

Motivations

1、基于视觉描述的图像检索（以图搜图）比基于文本的图像检索（以文搜图）具有更强的表达能力，而视觉描述不仅指自然图像，也可以是手绘草图（当自然图像难以获得时，用户可以在触屏设备上简单手绘草图）。SBIR的主要挑战是image和sketch之间的domain gap，sketch只有物体的轮廓，与image相比只有很少的信息。另外，sketch的类内方差大，因为人们在绘制草图时会有不同程度的抽象。因此，为了更好的泛化能力，SBIR模型需要能挖掘sketch和image之间的对齐关系。

2、但是由于现有的评价方法只是关注类别粒度的检索，而不是形状或属性检索，导致SBIR模型只需要学习sketch到label的映射就能达到较好的性能。基于细粒度的评价方法能缓解此问题，但是它依赖人工标注排序，人力成本高而且会受到主观影响。所以提出在zero-shot场景下的粗粒度检索作为细粒度检索的替代，来避免上述问题。为了达到较好的性能，ZS-SBIR模型需要学会将sketch和image的潜在对齐关系联系起来。而且ZS-SBIR更符合实际场景，模型训练时不可能囊括所有类别。

Limitations of existing SBIR methods

比较了三种state-of-the-art SBIR方法，分别是Siamese Network、Triplet Network、Deep Sketch Hashing(DSH)。

这些模型的性能显著下降，表明现有SBIR方法的泛化性很差。可能是因为模型在判别式场景下训练，只学习sketch和image到label的映射。Siamese network表现最好，triplet network次之，可能因为只有60000张左右图像，训练不够充分。而且粗粒度的triplet network表现比细粒度好，可能因为细粒度训练难度更大。此外，DSH表现最差，可能因为semantic factorization loss只考虑训练集的类别标签向量，并没有缓解测试集上的semantic gap。

Generative Models for ZS-SBIR

提出利用生成模型来解决ZS-SBIR问题，动机是当sketch给出了image的基本轮廓时，通过生成模型，可以从潜在的先验变量Z中产生额外细节信息。由于我们没有给出类别标签信息，希望模型能够学会将草图的轮廓、局部形状等特征与图像的相应特征联系起来。
生成模型：G_θ = P(x_img|x_sketch;θ)
Let G_θ model the probability distribution of the image features (x_img) conditioned on the sketch features (x_sketch) and parameterized by θ

Variational Autoencoders

VAE ：
P(X)的变分下界：p是真实分布，q是高斯概率分布来逼近

Conditional VAE：
In this work, we model the probability distribution over images conditioned on the sketch i.e P(x_img|x_sketch）

此外，为了保留sketch的潜在对齐关系，在目标函数加入重建regularization loss

Adversarial Autoencoders

encoder-decoder要最小化损失：

判别器D要最大化损失：

同样在encoder-decoder加入上述重建regularization loss

Experiments

我们的方法性能最好，CVAE比CAAE更好，可能由于CAAE的对抗模型训练不稳定，使用reconstruction loss能带来precision的3%的提高。SAE性能也不错，它是将sketch映射到image，一张给定的sketch对应一个生成的image，与我们的方法类似，不同的是，对于一张给定的sketch，我们从潜在分布中采样一组Z，来生成一组image（检索时取聚类中心代表这张sketch，计算余弦距离），填充缺失信息。
而对于误报的image，虽然与sketch类别不同，但是有很相似的轮廓。