LLM2D

摘要

arXiv:2504.05316v1 类型: cross 摘要: 组合图像检索（CIR）旨在使用参考图像和修改文本的组合作为查询来搜索感兴趣的图像。尽管最近取得了进展，但由于训练数据有限和三元组标注过程繁琐，这一任务仍然具有挑战性。为了解决这个问题，本文提出合成训练三元组以增加CIR问题的训练资源。具体而言，我们首先利用大规模多模态模型训练一个修改文本生成器，并在整个预训练和微调阶段逐步扩大CIR的学习规模。在预训练阶段，我们利用训练好的生成器直接根据图像对生成面向修改文本的合成三元组（MTST）。在微调阶段，我们首先合成反向修改文本以将目标图像与参考图像连接起来。随后，我们设计了一种两步对齐策略，逐步缩小多模态对和目标图像之间的语义差距。我们首先通过循环方式利用原始三元组及其反向版本学习隐式原型，随后将隐式原型特征与修改文本相结合，以促进与目标图像的准确对齐。广泛实验验证了生成三元组的有效性，并确认我们提出的方法在CIRR和FashionIQ基准上取得了竞争力的召回率。