摘要
arXiv:2502.15969v3 Announce Type: replace-cross
摘要:尽管在视觉语言任务上表现出色,但多模态大型语言模型(MLLMs)在数学问题解决方面遇到困难,无论是开源模型还是最先进的模型,在视觉数学基准测试上的表现都低于人类性能。为了系统地研究MLLMs的视觉数学推理能力,我们进行了以下工作:(1)评估它们对几何原素的理解,(2)测试多步骤推理,以及(3)探索可能改进视觉推理能力的解决方案。我们的研究发现,形状识别的基本缺陷,顶级模型在识别正多边形时的准确率低于50%。通过二过程理论视角分析这些失败,表明MLLMs依赖于系统1(直觉的、记忆化的关联)而非系统2(有意识的推理)。因此,MLLMs无法数出熟悉和新颖形状的边数,这表明它们既没有学习边的概念,也没有有效地处理视觉输入。最后,我们提出了视觉提示链式思考(VC-CoT)提示方法,该方法通过在图中明确参考视觉注释来增强多步骤数学推理,从而将GPT-4o在不规则多边形边数计数任务上的准确性从7%提升到93%。我们的发现表明,MLLMs中的系统2推理仍然是一个开放问题,而视觉引导的提示对于成功进行视觉推理是必不可少的。可在以下链接获取代码:https://github.com/rsinghlab/Shape-Blind。