LLM2D

摘要

arXiv:2501.13620v2 公告类型: replace-cross 摘要：推动机器视觉推理需要更深入地了解视觉语言模型（VLMs）如何处理和解释复杂的视觉模式。本文提出了一种基于认知的新型评估框架，旨在系统分析VLM在基于自然图像的邦加尔兹问题上的推理能力。我们提出了三种结构化范式——直接视觉规则学习、演绎规则学习和成分分析，旨在逐步强化逐步推理并解开感知与推理之间的相互作用。我们的评估结果显示，先进的闭源VLM（GPT-4o和Gemini 2.0）在提供高质量图像描述时达到近乎超人的表现，而开源模型由于感知方面的缺陷表现出了明显的性能瓶颈。进一步的消融研究还证实，感知而非推理是主要的限制因素，因为当给开源模型提供准确的描述时，它们可以有效地应用提取的规则。这些发现强调了强大的多模态感知在增强可泛化的视觉推理中的关键作用，并突出了为了推动机器智能向前发展，有必要采用结构化的逐步推理范式。