LLM2D

摘要

arXiv:2503.21309v1 宣告类型: cross 摘要：多模态查询驱动的图像检索（CIR）通过包含参考图像和修改文本的多模态查询来实现图像检索。参考图像定义了检索上下文，而修改文本指定了所需的更改。然而，现有的CIR数据集主要使用粗粒度修改文本（CoarseMT），这未能充分捕捉到细微的检索意图。这种限制带来了两个关键挑战：（1）忽略详细的差异会导致不精确的阳性样本，（2）检索视觉上相似的图像时出现了更大的歧义。这些问题降低了检索精度，需要手动结果过滤或重复查询。为了解决这些限制，我们开发了一种稳健的细粒度CIR数据注释流水线，以最小化不精确的阳性样本，并增强CIR系统准确辨识修改意图的能力。利用这一流水线，我们细化了FashionIQ和CIRR数据集，创建了两个细粒度CIR数据集：Fine-FashionIQ和Fine-CIRR。此外，我们引入了FineCIR，这是第一个明确设计用于解析修改文本的CIR框架。FineCIR有效地捕捉细粒度的修改语义，并将它们与模糊的视觉实体对齐，提高了检索精度。广泛实验表明，FineCIR在细粒度和传统CIR基准数据集上始终优于最先进的CIR基线。我们的FineCIR代码和细粒度CIR数据集可在 https://github.com/SDU-L/FineCIR.git 获取。