在最小模态差异下学习鲁棒行人表示的跨模态行人重识别方法

刘玉杰; 邵文斌; 孙晓瑞

doi:10.1007/s11390-022-2146-1

在最小模态差异下学习鲁棒行人表示的跨模态行人重识别方法

Learn Robust Pedestrian Representation Within Minimal Modality Discrepancy for Visible-Infrared Person Re-Identification

摘要

摘要: 1.研究背景（context）：行人重识别是一个图像检索问题，其旨在为一个给定的行人图像从图像库中检索到具有相同身份的图像，这些图像都是多个从不同摄像头下捕获到的。由于行人姿态变化、行人视角变化和遮挡等问题导致的图像差异，给行人重识别带了很大挑战。尽管存在上述的困难，随着深度学习技术的发展，现在基于RGB图像的行人重识别工作已经有了很大的进步并且取得了很高的精度。但是RGB监控摄像头无法在弱光照条件下拍摄到清晰的行人图像，这限制了单模态行人重识别的应用场景。在现实的应用场景中，智能的监控摄像头可以根据光照条件自动在RGB模式和红外模式之间转换，随之出现的跨模态行人重识别研究领域受到学术界的广泛关注。由于RGB图像和红外图像之间的存在巨大的模态差异，过去单模态的行人重识别方法在跨模态问题中并不适用。模态差异目前成为该研究领域的重点关注问题。
2.目的（Objective）：现有的工作主要包括基于生成对抗网络的方法生成假的跨模态图像实现图像级的对齐或者基于度量学习和表征学习的方法精心设计网络结构提取模态共享特征缓解模态差异。但是，这些的方法都忽略了一种计算简单并且可以有效缩小视觉模态差异的方案：将RGB图像直接转换为灰度图像。本文中，我们将跨模态匹配任务从红外图像和RGB图像之间转换到红外图像和灰度图像之间。现有的表征学习和度量学习的方法大都使用卷积神经网络最后一层的特征作为最终的行人表征，虽然具有高度的语义性，但是缺少细节信息，细节信息在红外图像和灰度图像行人重识别中是重要的决定行人身份的线索。此外，行人的姿态变化、视角变化和遮挡等问题也需要图像特征具有鲁棒性。为了解决上述问题，本文提出了一种金字塔特征融合网络，在最小模态差异下挖掘行人图像中具有判别性的细节特征并融合高层语义特征为行人图像构建鲁棒的全局表征。
3.方法（Method）：在本文中，我们将跨模态行人匹配从红外图像和RGB图像之间转换到红外图像和灰度图像之间，与RGB图像相比，灰度图像和红外图像之间的模态差异大幅减小，在视觉上两种模态图像也极其相似，所以本文将其称之为最小视觉模态差异。与基于生成对抗网络的方法相比，直接转换的方式需要的运算开销很小，仅仅需要进行三次乘法操作；同时，这种直接转换生成的图像更加自然而且质量更高，可以有效保留行人身份判别性信息。尽管将问题转换后存在上述有优点，但是灰度图像与RGB图像相比损失了很多信息，比如颜色信息。在这种条件下，使用现有的特征提取结构不足以捕获身份判别性特征。为了解决该问题，本文提出一种金字塔结构的特征融合网络, 在最小的模态差异下挖掘行人图像中具有判别性的细节特征并融合高层语义特征为行人图像构建鲁棒的全局表征。输入图像经过转换后由金字塔结构的信息建模模块实现由细到粗的特征提取以及自顶向下的语义传递得到多尺度特征图。各个尺度的特征图分别输入到对应的判别性区域响应模块利用空间注意力机制实现行人身份判别性区域的响应。多尺度特征图融合后作为最终鲁棒的全局行人表示。
4.结果（Result & Findings）：本文提出的金字塔结构的特征融合网络在性能上大幅超越了现有最好方法。并且在Multi-shot 和 Indoor-search评估策略上的表现已经达到了单模态行人重识别的水平，取得了91.53%的Rank-1准确率和86.82%的mAP。这是首次在Rank-1准确率上突破90%，证明本文在跨模态行人重识别研究中具有重要意义。本文提出的方法在所有的评估策略上都超越了目前表现最好的SOTA MPANet，尤其是在Single-shot和indoor-search评估策略上Rank-1准确路提高了11.8%，在Multi-shot和All-search评估策略上mAP提高了11.58%。
5、结论（Conclusions）：本文提出一种在最小模态差异下学习鲁棒行人表示的方法。首先通过将RGB图像直接转化为灰度图像把跨模态匹配任务从RGB图像和红外图像之间转换到灰度图像和红外图像之间。本文将这一新状态称为最小模态差异。金字塔结构的特征融合网络被提出在最小模态差异下捕获有效的行人身份判别信息去构建鲁棒的行人表征。试验结果证明了本文提出的方法的有效性。尤其是最小模态差异，该方法一直都被研究人员忽略，但实际上不仅计算简单而且可以很大程度上缓解模态差异。我们期待本文提出的方法能够得到跨模态行人重识别领域的关注，给该领域提供新的视野，促进更多优秀的工作产生，进一步推动该技术的实际应用。

Abstract: Visible-infrared person re-identification has attracted extensive attention from the community due to its potential great application prospects in video surveillance. There are huge modality discrepancies between visible and infrared images caused by different imaging mechanisms. Existing studies alleviate modality discrepancies by aligning modality distribution or extracting modality-shared features on the original image. However, they ignore a key solution, i.e., converting visible images to gray images directly, which is efficient and effective to reduce modality discrepancies. In this paper, we transform the cross-modality person re-identification task from visible-infrared images to gray-infrared images, which is named as the minimal modality discrepancy. In addition, we propose a pyramid feature integration network (PFINet) which mines the discriminative refined features of pedestrian images and fuses high-level and semantically strong features to build a robust pedestrian representation. Specifically, PFINet first performs the feature extraction from concrete to abstract and the top-down semantic transfer to obtain multi-scale feature maps. Second, the multi-scale feature maps are inputted to the discriminative-region response module to emphasize the identity-discriminative regions by the spatial attention mechanism. Finally, the pedestrian representation is obtained by the feature integration. Extensive experiments demonstrate the effectiveness of PFINet which achieves the rank-1 accuracy of 81.95% and mAP of 74.49% on the multi-all evaluation mode of the SYSU-MM01 dataset.

HTML全文

参考文献()

施引文献

资源附件()