2020 AAAI之ReID：Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification

Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification
当前的问题及概述：
由于每一对RGB和IR图像之间缺乏对应标签，大多数方法都试图通过减少整个RGB和IR set之间的差异来缓解set-level对齐的变化。但是，这种set-level的对齐可能会导致某些情况下的不对齐，从而限制了RGB-IR Re-ID的性能。
本文提出了生成跨模态paired-images并同时进行 global set-level（集合级别）和fine-grained instance-level（实例级别）对齐的方法。具体解释见下图：
在这里插入图片描述
set-level和instance-level对齐的说明。(a) RGB集和IR集之间有很大的差距。(b)现有的set-level对齐的方法是尽量减少两个模态之间的距离，这可能导致某些情况下的不对齐。©我们的方法首先生成交叉模态paired-images。(d)通过最小化每一pair的图像之间的距离来实现instance-level对齐。
有以下几个优点：
1.我们的方法可以通过模态特定特性和模态不变特性来实现set-level对齐。与传统方法相比，我们的方法可以明确地去除模态特征，从而更好地减少模态带来的变化。
2.在给定人的交叉模态unpaired-images的情况下，我们的方法可以从交换的图像中生成交叉模态paired-images。从而，我们可以通过最小化每个pair的图像的距离来直接执行instance-level对齐。
3.在SYSU-MM01数据集上，本模型在Rank-1和mAP上的增益分别为9.2%和7.7%。
模型及loss：
1.不同网络的生成结果：
在这里插入图片描述
(a)在edge-photo任务中，我们可以得到交叉模态配对图像。通过最小化它们在特征空间中的距离，我们可以很容易地减少跨模态的差距。(b)在RGB-IR Re-ID任务中，我们只有unpaired-images。由跨模态差异引起的外观变化使任务更具挑战性。©本文可以很好地生成与给定图像pair的图像，这有助于我们改进RGB-IR的识别。(d,e) 例如CycleGAN 和StarGAN 未能处理这个问题。
2.框架
在这里插入图片描述
本文提出的框架包括一个跨模态配对图像生成模块G和一个特征对齐模块F。G首先将图像分解成特定模态和不变模态特征，然后解码所交换的特征。F首先使用模态不变编码器进行set-level对齐，然后通过最小化每对图像的距离进一步缩小进行instance-level对齐。最后，通过训练具有ReID loss的两个模块，我们可以同时学习模态对齐和身份识别特征。
2.1Cross-Modality Paired-Images Generation Module
在如图2(b)可以看到，在RGB-IR任务中，来自两种模式的训练信息是不配对的，这使得缩小RGB和IR模态间的差距变得更加困难。为了解决这一问题，我们提出了通过特征分离和解码来生成成对图像的方法。我们假设图像可以被变换成模态不变和模态特定的特征。在这里，模态不变特征包括姿势、性别、服装类别、携带的东西等内容信息。模态特定特征有服装/鞋的颜色、质地等风格信息。因此，对于未配对的图像，通过分离和交换它们的样式信息，我们可以生成配对图像，其中两个图像具有相同的内容信息(如姿势和视图)，但具有不同的样式信息(如服装颜色)。
首先，本文用3个编码器来进行特征分离，图中可以看到式1、2中每个字母代表的含义，Ei为共有特征，Es为特有特征：
在这里插入图片描述
为了生成与真实IR图像匹配的RGB图像，我们可以使用真实IR图像的模态不变特征（内容特征）和真实RGB图像的模态特定特征（风格特征），生成IR图像同理，即：

选用三个loss进行图像生成，一个是Reconstruction Loss，用于迫使被拆散的特征重新构建它们的原始图像：
在这里插入图片描述
一个是cycle loss：

其中：

由于前两个loss会使得图像模糊，加入GAN loss被证明可以使得图像更真实：

2.2Feature Alignment Module
Set-Level Feature Alignment部分：目前特征提取部分通常用two-stream网络，但是，这些方法并没有很明显的被证明可以删除模态的特有特征，这些特有特征很可能被编码到共享的特性空间中，从而影响性能。
在本文中，利用一个set-level编码器Esl来学习set-level对齐特性。Esl与生成器中的共享特征编码器Ei共享权重。我们可以看到，在交叉模态配对图像生成模块中，Ei被训练成去除模态特定的特征保留不变特征。因此，给定任意模态的图像X，我们可以学习它们的set-level对齐特征M = Esl(X)
Instance-Level Feature Alignment部分：本文使用生成器生成的交叉模态配对图像（paired-image）来进行实例级（instance-level）对齐。首先利用实例级编码器Eil将set-level对齐的特征M映射到一个新的有限元空间T，即T = Eil(M)。然后，基于特征空间T，通过最小化它们的KL散度，对每两个交叉模态匹配的图像进行对齐。因此，instance-level feature alignment loss如下：
在这里插入图片描述
其中，p1 = C(t1)和p2 = C(t2)是x1和x2对所有恒等式的预测的可能性，t1和t2是x1和x2在特征空间T中的特征。
Identity-Discriminative Feature Learning部分主要包含identity loss和ranking loss两部分，主要是为了克服模态内的变化以及对ID进行分类：
在这里插入图片描述
2.3overall：