LLM2D

摘要

arXiv:2504.10995v1 类型: cross 摘要: 组合图像检索（CIR）使用结合参考图像和描述所需修改的文本的多模态查询来检索目标图像。主要挑战在于有效地融合这种视觉和文本信息。当前的跨模态特征融合方法在意图解释方面存在固有的偏向。这些方法倾向于在视觉主导融合中过分强调参考图像特征，或者在通过图像到文本转换实现的文本主导融合中过分强调文本修改意图。这种不平衡的表示往往未能准确捕捉和反映用户在检索结果中的实际搜索意图。为了解决这一挑战，我们提出了一种名为TMCIR的新框架，通过两个关键创新推进了组合图像检索：1）意图感知跨模态对齐。我们首先利用从参考图像和文本描述通过扩散模型合成的反映意图的伪目标图像，对比性地微调CLIP编码器。这一步增强了编码器捕捉文本描述中细微意图的能力。2）自适应令牌融合。我们进一步通过将自适应令牌融合特征与目标图像进行对比性地微调所有编码器。这一机制在对比学习管道中动态平衡视觉和文本表示，优化组合特征以提高检索效果。在Fashion-IQ和CIRR数据集上的广泛实验表明，TMCIR显著优于现有方法，尤其是在捕捉用户的细微意图方面表现突出。