LLM2D
细粒度修改语义显式解析的组成图像检索
FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval
作者: Zixu Li, Zhiheng Fu, Yupeng Hu, Zhiwei Chen, Haokun Wen, Liqiang Nie
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21309v1

摘要

arXiv:2503.21309v1 宣告类型: cross 摘要:多模态查询驱动的图像检索(CIR)通过包含参考图像和修改文本的多模态查询来实现图像检索。参考图像定义了检索上下文,而修改文本指定了所需的更改。然而,现有的CIR数据集主要使用粗粒度修改文本(CoarseMT),这未能充分捕捉到细微的检索意图。这种限制带来了两个关键挑战:(1)忽略详细的差异会导致不精确的阳性样本,(2)检索视觉上相似的图像时出现了更大的歧义。这些问题降低了检索精度,需要手动结果过滤或重复查询。为了解决这些限制,我们开发了一种稳健的细粒度CIR数据注释流水线,以最小化不精确的阳性样本,并增强CIR系统准确辨识修改意图的能力。利用这一流水线,我们细化了FashionIQ和CIRR数据集,创建了两个细粒度CIR数据集:Fine-FashionIQ和Fine-CIRR。此外,我们引入了FineCIR,这是第一个明确设计用于解析修改文本的CIR框架。FineCIR有效地捕捉细粒度的修改语义,并将它们与模糊的视觉实体对齐,提高了检索精度。广泛实验表明,FineCIR在细粒度和传统CIR基准数据集上始终优于最先进的CIR基线。我们的FineCIR代码和细粒度CIR数据集可在 https://github.com/SDU-L/FineCIR.git 获取。