LLM2D

摘要

arXiv:2504.08974v1 通知类型: 新摘要: 视觉语言模型(VLMs)通过有效地结合视觉和文本信息来解决复杂任务，展现了出色的表现。然而，目前尚不清楚这些模型在处理视觉和文本数据时是如何进行推理的，以及不同模态之间信息流的结构如何。在本文中，我们通过分析模型在面临呈现矛盾图像和文本线索的情景时的偏见，来考察VLMs的推理过程，这在实际应用中是一种常见情况。为了揭示这些偏见的范围和性质，我们基于现有的基准数据集构建了五个包含矛盾图像-文本配对的数据集，涵盖了数学、科学和视觉描述等领域的话题。我们的分析表明，当查询更为简单时，VLMs更喜欢文本，而随着查询复杂性的增加，它们则更倾向于图像。这些偏见与模型规模相关，不同任务和模型之间，图像和文本偏好响应的百分比差异从+56.8%（图像偏好）到-74.4%（文本偏好）不等。此外，我们探索了三种缓解策略：简单的提示修改、明确指示模型如何处理矛盾信息的修改（类似于逐步推理提示），以及一种任务分解策略，该策略分别分析每个模态，然后结合其结果。我们的研究结果表明，这些策略在识别和缓解偏见的有效性上存在显著差异，并且与模型在特定任务上的整体性能以及涉及的具体模态紧密相关。