LLM2D

摘要

随着视觉语言模型在各种下游任务中的广泛应用，评估其鲁棒性至关重要。本文提出了一种用于评估视觉语言模型鲁棒性的基准。我们认为，一个鲁棒的模型应该能够正确理解语言和视觉语义，并能抵抗显式变化。为了实现这一目标，我们对 MS-COCO 测试集中的文本和图像创建了新的变体，并使用新数据重新评估了最先进 (SOTA) 模型。具体来说，我们通过替换一个词来改变文本的含义，并通过图像混合技术生成视觉上改变的图像，这些图像保留了一些视觉上下文，同时引入明显的像素变化。我们对所提出的基准的评估表明，许多 SOTA 模型的性能大幅下降（例如，BLIP 的图像到文本召回率@1：81.9% $\rightarrow$ 48.4%，VSE$\infty$ 的图像到文本召回率@1：66.1% $\rightarrow$ 37.6%），模型往往偏向于改变后的文本/图像而不是原始文本/图像。这表明目前的视觉语言模型难以处理细微的变化，并且经常无法理解文本和图像的整体上下文。基于这些发现，我们提出了语义对比损失和视觉对比损失来学习更鲁棒的嵌入。数据集和代码可在 {\url{https://github.com/pseulki/rococo}} 获取。