摘要
arXiv:2411.08334v2 更新类型: 替换-交叉
摘要:近期的多模态检索方法通过利用预训练策略实现视觉-文本对齐,从而赋予基于文本的检索器多模态能力。这些方法通常在对齐过程中直接融合两种模态以进行交叉参考,以理解多模态查询。然而,现有的方法往往由于文本主导问题而忽视了关键的视觉信息,这使得它们过度依赖于文本驱动的信号。在本文中,我们引入了MIRe,这是一种在对齐过程中不融合文本特征即可实现模态交互的检索框架。我们的方法允许文本查询关注视觉嵌入,而不将文本驱动的信号反馈回视觉表示。此外,我们通过将简短的问题-答案对转化为扩展段落来构建多模态查询检索的预训练数据集。我们的实验表明,我们的预训练策略显著增强了对多模态查询的理解,在零样本设置下,我们的方法在四个多模态检索基准测试中表现出色。我们的代码已在公开可用:https://github.com/yeongjoonJu/MIRe。