LLM2D

摘要

arXiv:2502.15969v3 Announce Type: replace-cross 摘要：尽管在视觉语言任务上表现出色，但多模态大型语言模型（MLLMs）在数学问题解决方面遇到困难，无论是开源模型还是最先进的模型，在视觉数学基准测试上的表现都低于人类性能。为了系统地研究MLLMs的视觉数学推理能力，我们进行了以下工作：（1）评估它们对几何原素的理解，（2）测试多步骤推理，以及（3）探索可能改进视觉推理能力的解决方案。我们的研究发现，形状识别的基本缺陷，顶级模型在识别正多边形时的准确率低于50%。通过二过程理论视角分析这些失败，表明MLLMs依赖于系统1（直觉的、记忆化的关联）而非系统2（有意识的推理）。因此，MLLMs无法数出熟悉和新颖形状的边数，这表明它们既没有学习边的概念，也没有有效地处理视觉输入。最后，我们提出了视觉提示链式思考（VC-CoT）提示方法，该方法通过在图中明确参考视觉注释来增强多步骤数学推理，从而将GPT-4o在不规则多边形边数计数任务上的准确性从7%提升到93%。我们的发现表明，MLLMs中的系统2推理仍然是一个开放问题，而视觉引导的提示对于成功进行视觉推理是必不可少的。可在以下链接获取代码：https://github.com/rsinghlab/Shape-Blind。