摘要
arXiv:2502.04263v1 公告类型:交叉
摘要:像CLIP这样的预训练多模态视觉-语言模型广泛用于各种应用程序中。在本文中,我们表明,单独利用这些强大多模态模型的文本或图像编码器对于 intra-modal 任务(如图像到图像检索)来说是非常不完美的做法。我们认为这是由于CLIP风格的跨模态对比损失所导致的,这种损失并没有强制执行任何 intra-modal 约束,这导致了我们所谓的 intra-modal 未对齐。为了证明这一点,我们采用了两种基于优化的模态逆解析技术,这些技术可以将输入模态的表示映射到互补模态,而不需要辅助数据或额外训练的适配器。我们通过实验证明,在图像到图像检索和文本到文本检索的内模态任务中,以跨模态的方式处理这些任务,可以显著提高性能,相对于15个以上数据集的内模态基线。此外,我们还展示了以内模态方式处理本源的跨模态任务(例如零样本图像分类)会降低性能,这进一步验证了我们的发现。最后,我们证明了在预训练目标中引入内模态项或缩小文本和图像特征嵌入空间之间的模态差距有助于减少内模态未对齐。代码可在以下链接公开获取:https://github.com/miccunifi/Cross-the-Gap。