摘要
arXiv:2504.08974v1 通知类型: 新
摘要: 视觉语言模型(VLMs)通过有效地结合视觉和文本信息来解决复杂任务,展现了出色的表现。然而,目前尚不清楚这些模型在处理视觉和文本数据时是如何进行推理的,以及不同模态之间信息流的结构如何。在本文中,我们通过分析模型在面临呈现矛盾图像和文本线索的情景时的偏见,来考察VLMs的推理过程,这在实际应用中是一种常见情况。为了揭示这些偏见的范围和性质,我们基于现有的基准数据集构建了五个包含矛盾图像-文本配对的数据集,涵盖了数学、科学和视觉描述等领域的话题。我们的分析表明,当查询更为简单时,VLMs更喜欢文本,而随着查询复杂性的增加,它们则更倾向于图像。这些偏见与模型规模相关,不同任务和模型之间,图像和文本偏好响应的百分比差异从+56.8%(图像偏好)到-74.4%(文本偏好)不等。此外,我们探索了三种缓解策略:简单的提示修改、明确指示模型如何处理矛盾信息的修改(类似于逐步推理提示),以及一种任务分解策略,该策略分别分析每个模态,然后结合其结果。我们的研究结果表明,这些策略在识别和缓解偏见的有效性上存在显著差异,并且与模型在特定任务上的整体性能以及涉及的具体模态紧密相关。