LLM2D

摘要

对比语言-图像预训练 (CLIP) 模型在传统的行人重识别 (ReID) 任务中表现出色，因为它在为行人图像生成文本描述方面具有固有优势。然而，将 CLIP 直接应用于相机内监督行人重识别 (ICS ReID) 会带来挑战。ICS ReID 要求在每个相机内进行独立的身份标记，而没有跨相机的关联。这限制了基于文本的增强效果。为了解决这个问题，我们提出了一种新颖的框架，称为基于 CLIP 的相机无关特征学习 (CCAFL)，用于 ICS ReID。因此，设计了两个自定义模块来引导模型主动学习相机无关的行人特征：相机内判别学习 (ICDL) 和相机间对抗学习 (ICAL)。具体来说，我们首先为相机内行人图像建立可学习的文本提示，以获得后续相机内和相机间学习的关键语义监督信号。然后，我们设计 ICDL 通过考虑每个相机内的硬正例和硬负例来增加类间差异，从而学习相机内更细粒度的行人特征。此外，我们提出了 ICAL 通过惩罚模型从行人图像源自的相机预测能力来减少相机间行人特征差异，从而增强模型从不同视角识别行人的能力。在流行的 ReID 数据集上进行的大量实验证明了我们方法的有效性。特别是在具有挑战性的 MSMT17 数据集上，我们在 mAP 准确率方面达到了 58.9%，比最先进的方法高出 7.6%。代码将在以下地址提供：https://github.com/Trangle12/CCAFL。