LLM2D
被遗忘的多边形:多模态大型语言模型是形状盲目的
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind
作者: William Rudman, Michal Golovanevsky, Amir Bar, Vedant Palit, Yann LeCun, Carsten Eickhoff, Ritambhara Singh
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2502.15969v3

摘要

arXiv:2502.15969v3 Announce Type: replace-cross 摘要:尽管在视觉语言任务上表现出色,但多模态大型语言模型(MLLMs)在数学问题解决方面遇到困难,无论是开源模型还是最先进的模型,在视觉数学基准测试上的表现都低于人类性能。为了系统地研究MLLMs的视觉数学推理能力,我们进行了以下工作:(1)评估它们对几何原素的理解,(2)测试多步骤推理,以及(3)探索可能改进视觉推理能力的解决方案。我们的研究发现,形状识别的基本缺陷,顶级模型在识别正多边形时的准确率低于50%。通过二过程理论视角分析这些失败,表明MLLMs依赖于系统1(直觉的、记忆化的关联)而非系统2(有意识的推理)。因此,MLLMs无法数出熟悉和新颖形状的边数,这表明它们既没有学习边的概念,也没有有效地处理视觉输入。最后,我们提出了视觉提示链式思考(VC-CoT)提示方法,该方法通过在图中明确参考视觉注释来增强多步骤数学推理,从而将GPT-4o在不规则多边形边数计数任务上的准确性从7%提升到93%。我们的发现表明,MLLMs中的系统2推理仍然是一个开放问题,而视觉引导的提示对于成功进行视觉推理是必不可少的。可在以下链接获取代码:https://github.com/rsinghlab/Shape-Blind。