Towards Black Re-Id: A New Challenge For Person Re-Identification, with Head-Shoulder Information
Boqiang Xu Lingxiao He Xingyu Liao Wu Liu Zhenan Sun Tao Mei
paper: http://arxiv.org/abs/2008.08528 (Accepted By ACM MM 2020)
code: https://github.com/xbq1994/HAA
背景
行人重识别作为现在计算机视觉的一个主流任务,在实际场景中有许多应用,比如安防、智能超市等。行人重识别旨在给定一个监控行人图像 (query),跨设备检索多个摄像头下 (gallery) 该行人的所有图像。近几年,由于深度学习的发展,行人重识别取得了巨大进步,在三大公开数据库 Market-1501 [1], DukeMTMC-reID [2], CUHK03 [3] 中都已经取得了较高的分数。 但是现在大部分reID的方法主要都是针对光线充足、人们衣着亮丽区分度大的传统环境,reID模型也主要是依靠人物衣着来提取特征。在实际业务场景中我们发现,到了冬天,reID系统的性能会突然大大下降,而通过监控我们发现导致这个问题的原因是很多人(尤其是男士)到了冬天都换上了黑衣服,使得衣着的特征属性严重缺失,给reID带来了极大的困难。由此我们提出了 'Black Re-ID' (黑衣人)这个问题,建立了黑衣人数据库,并通过实验证明了我们的方法能有效解决黑衣人问题,同时对传统场景下的reID性能也有较大的提升。
一、‘Black Re-ID’ 是什么
在实际业务场景中我们发现很多人(尤其是男士)到了冬天都换上了黑衣服,使得衣着的特征属性严重缺失,给reID带来了极大的困难。
知乎视频 www.zhihu.com另外,我们也统计了Market-1501 [1], DukeMTMC-reID [2], CUHK03 [3] 中穿黑衣服的人的数量如表一所示,发现黑衣人也占了很高的比例,说明不管从现实场景还是学术来说黑衣人都是个很常见的问题。
表一:三大数据库中黑衣人数量统计我们将低光照或者穿着黑衣服条件下的reID定义为'Black re-ID' , 即黑衣人问题。 同时黑衣人问题也可延伸为穿着相似衣服的reID, 因为穿着相似衣服给reID带来的困难依然是难以通过衣着的特征属性进行人物检索。为了解决这个问题,我们提出利用头肩特征辅助reID。头肩区域有许多特征,比如图一所示的性别、发型、外貌、眼镜等特征都可以帮助reID进行人物检索。而且头肩还有另一个好处是不容易被遮挡,即使在密集场景中也相较于人体其它部位更容易获得完整、高质量的头肩图像。
图一:利用头肩特征辅助解决 'Black Re-ID'二、Head-shoulder Adaptive Attention Network (HAA)
图二:Head-shoulder Adaptive Attention Network (HAA)基于上述的分析,我们提出了图二所示的 Head-shoulder Adaptive Attention Network (HAA) 模型来利用头肩特征辅助解决黑衣人问题。模型分为两个分支:Global Stream 和 Head-shoulder Attention Stream (HSA) , 分别用于提取全局特征和头肩特征。最后,全局特征和头肩特征会通过 Adaptive Attention 模块进行融合得到最终的人物特征。
1. Global Stream
Global Stream 可以根据使用者对速度和精度的不同需求,选择使用 ResNet 50 [4], MGN [5], PCB [6] 等其它现有模型替代。
2. Head-shoulder Attention Stream (HSA)
HSA 用于提取头肩特征,它先通过 HLL 定位头肩位置,再利用分块和 HAN 进行头肩的特征提取。其中 HLL 是利用了 STN [7] 的思想,利用仿射变换来回归出头肩的bbox;HAN 是一个attention模块,即包括channel attention,也包括了spatial attention。
3. Adaptive Attention
Adaptive Attention是我们设计的一个特征融合模块。它的核心思想是根据输入的图片是否是黑衣人来决定给与全局特征和头肩特征不同的权重,具体来说如果输入是黑衣人图片那么就给予头肩特征更高的权重,反之则给与全局特征更高的权重。这样的好处是使得我们的模型不仅能解决黑衣人问题,同时也能帮助传统条件的reID获得更高的性能。Adaptive Attention会先通过 判断是不是黑衣人,再通过 计算出 , 即为全局特征和头肩特征的权重。
三. The 'Black-reID' Dataset
为了研究黑衣人问题,我们建立了首个黑衣人数据库,该数据库包括两个组: Black Group 和 White Group。Black Group 里的人大多穿着黑衣服,用以验证模型在解决黑衣人问题上的性能;White Group 里的人大多穿着白衣服,用以验证模型在解决相似衣服问题上的性能。为了拟合真实情况,我们并没有使训练集全是黑衣人或者白衣人,而是以 '黑衣人(白衣人):其它衣服的人 1 :1' 的设置来建立训练集和测试集。我们从Market-1501 [1], DukeMTMC-reID [2], Partial [8] 和 Occluded [9] 这几个数据集中挑出了对应的图像建立了黑衣人数据集。最终 Black Group 的训练集包含 688 个 ID,5,649 张图片,测试集包含 1,644 个 ID,6462张图片;White Group 的训练集包含 586 个 ID ,10,040 张图片,测试集包含 628 个 ID,13,092 张图片。部分示例如图三所示。
图三:The 'Black-reID' Dataset四. 实验结果
我们做了充足的实验来验证我们模型的性能。
表二是在黑衣人数据库上的实验,其中 HAA(ResNet50) 和 HAA(MGN) 分别表示选用 ResNet50 和 MGN 作为global stream 的 backbone。可以看出,HAA(ResNet50) 比其对照组 ResNet50 在Black Group 中 mAP 和 Rank-1 分别提升了 8.2 和 5.8,在 White Group 中 mAP 和 Rank-1 分别提升了 8.6 和 4;HAA(MGN) 比其对照组 MGN 在Black Group 中 mAP 和 Rank-1 分别提升了 4.7 和 4.3,在 White Group 中 mAP 和 Rank-1 分别提升了2.3 和 1。该实验说明我们的模型在解决黑衣人和相似衣服条件下的reID问题上有远超现有方法的SOTA性能。
表二: 黑衣人数据库实验结果表三是 HAA 在 Market1501 和 DukeMTMC-reID 上的实验结果。可以看出我们的模型在解决传统的reID问题时同样拥有SOTA的性能。
表三:Market1501, DukeMTMC-reID 实验结果表四是对 Adaptive Attention 模块进行的剥离实验,对照组设置为在训练和测试过程中都使用concat进行全局特征和头肩特征的融合。可以看出不论是在黑衣人还是传统的reID问题上, Adaptive Attention 模块的性能高于直接使用concat进行特征融合。
表四:Adaptive Attention 模块的剥离实验表五是对三种Pooling方式做的对比实验,可以看出我们选用的 GeM Pooling 在reID实验中取得了最高性能,并且无论是采用哪种Pooling方式 HAA(ResNet50) 都比对照组 ResNet50 mAP 和 Rank-1 高了至少 4.4 和 1.8。
表五:不同Pooling方式的对比实验表六是对最终得到的全局特征、头肩特征和融合后的特征进行检索的结果,可以看出融合后的特征检索结果最好。值得一提的是,通过我们模型的训练,全局特征的表征性也得到了很高的提升,如果对精度要求不是很高,在测试阶段可以只使用全局特征进行行人检索以提高模型运行速度。
表六:不同特征检索结果对比总结
我们首次提出了 'Black Re-ID' 这一问题,黑衣人问题在实际场景中十分常见,具有很高的研究价值。为了研究这一问题,我们建立了首个黑衣人数据库 'Black-reID'。我们同时提出了通过头肩特征辅助解决黑衣人问题的模型 Head-shoulder Adaptive Attention Network (HAA)。通过实验证明,我们的模型在解决黑衣人问题和相似衣服的reID问题上都远超现有方法,并且在解决传统条件下的reID问题时也能提高reID性能,达到SOTA的结果。
引用
[1] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, and Qi Tian. 2015. Scalable Person Re-identification: A Benchmark. IEEE International Conference on Computer Vision (ICCV) (2015), 1116–1124.
[2] Ergys Ristani, Francesco Solera, Roger S. Zou, Rita Cucchiara, and Carlo Tomasi. 2016. Performance Measures and a Data Set for Multi-target, Multi-camera Tracking. In European Conference on Computer Vision (ECCV) Workshops.
[3] Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang. 2014. DeepReID: Deep Filter Pairing Neural Network for Person Re-identification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 152–159.
[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016), 770–778.
[5] GuanshuoWang, Yufeng Yuan, Xiong Chen, Jiwei Li, and Xi Zhou. 2018. Learning Discriminative Features with Multiple Granularities for Person Re-Identification. Proceedings of the 26th ACM international conference on Multimedia (2018).
[6] Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and ShengjinWang. 2018. Beyond Part Models: Person Retrieval with Refined Part Pooling. In European Conference on Computer Vision (ECCV).
[7] Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu.2015. Spatial Transformer Networks. In NIPS.
[8] Wei-Shi Zheng, Xiang Li, Tao Xiang, Shengcai Liao, Jian-Huang Lai, and Shaogang Gong. 2015. Partial Person Re-Identification. In IEEE International Conference on Computer Vision (ICCV). 4678–4686.
[9] Jiaxuan Zhuo, Zeyu Chen, Jian-Huang Lai, and GuangcongWang. 2018. Occluded Person Re-Identification. IEEE International Conference on Multimedia and Expo (ICME) (2018), 1–6.
来源:oschina
链接:https://my.oschina.net/u/4322037/blog/4529786