LLM2D

摘要

寻找特定人物具有巨大的社会效益和安全价值，通常涉及视觉和文本信息的结合。传统的基于图像或基于文本的人物检索方法通常难以有效利用这两种信息，导致精度下降。本文提出了一种全新的任务，即组合式人物检索 (CPR)，用于联合利用图像和文本信息进行目标人物检索。然而，监督式 CPR 需要非常昂贵的标注数据集，而目前尚无可用资源。为了解决这个问题，我们首先介绍了零样本组合式人物检索 (ZS-CPR)，它利用现有的领域相关数据来解决 CPR 问题，无需昂贵的标注。其次，为了学习 ZS-CPR 模型，我们提出了一种两阶段学习框架 Word4Per，其中一个轻量级的文本反演网络 (TINet) 和一个基于微调对比语言图像预训练 (CLIP) 网络的基于文本的人物检索模型无需任何 CPR 数据即可学习。第三，我们构建了一个精细标注的图像文本组合式人物检索 (ITCPR) 数据集作为基准，以评估所提出的 Word4Per 框架的性能。在 Rank-1 和 mAP 下进行的大量实验表明，Word4Per 对 ZS-CPR 任务的有效性，比对比方法高出 10% 以上。代码和 ITCPR 数据集将公开发布于 https://github.com/Delong-liu-bupt/Word4Per。