LLM2D

摘要

基于文本的图像人物检索的目标是根据给定的文本描述检索特定的人物图像。这项任务的主要挑战在于弥合视觉和文本模态之间巨大的表征差距。现有的方法将文本和图像映射到统一的嵌入空间进行匹配，但文本和图像之间复杂的语义对应关系仍未得到有效构建。为了解决这个问题，我们提出了一种新颖的基于文本的图像人物检索框架，以构建人物图像和相应文本之间细粒度的交互和对齐。具体来说，通过微调对比语言图像预训练（CLIP）模型，首先构建了一个视觉文本双编码器，以初步对齐图像和文本特征。其次，提出了一种文本引导的图像恢复（TIR）辅助任务，将抽象的文本实体映射到特定的图像区域，从而提高局部文本和视觉嵌入之间的对齐度。此外，提出了一种跨模态三元组损失来处理困难样本，并进一步增强模型对细微差异的判别能力。此外，还提出了一种基于剪枝的文本数据增强方法，以增强对描述中基本元素的关注，从而避免模型过度关注不太重要的信息。实验结果表明，我们提出的方法在三个流行的基准数据集上优于最先进的方法，代码将公开发布在https://github.com/Delong-liu-bupt/SEN。