摘要
随着视觉语言模型在各种下游任务中的广泛应用,评估其鲁棒性至关重要。本文提出了一种用于评估视觉语言模型鲁棒性的基准。我们认为,一个鲁棒的模型应该能够正确理解语言和视觉语义,并能抵抗显式变化。为了实现这一目标,我们对 MS-COCO 测试集中的文本和图像创建了新的变体,并使用新数据重新评估了最先进 (SOTA) 模型。具体来说,我们通过替换一个词来改变文本的含义,并通过图像混合技术生成视觉上改变的图像,这些图像保留了一些视觉上下文,同时引入明显的像素变化。我们对所提出的基准的评估表明,许多 SOTA 模型的性能大幅下降(例如,BLIP 的图像到文本召回率@1:81.9% $\rightarrow$ 48.4%,VSE$\infty$ 的图像到文本召回率@1:66.1% $\rightarrow$ 37.6%),模型往往偏向于改变后的文本/图像而不是原始文本/图像。这表明目前的视觉语言模型难以处理细微的变化,并且经常无法理解文本和图像的整体上下文。基于这些发现,我们提出了语义对比损失和视觉对比损失来学习更鲁棒的嵌入。数据集和代码可在 {\url{https://github.com/pseulki/rococo}} 获取。