LLM2D
LEGO-拼图:MLLMs在多步空间推理方面表现如何?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
作者: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.19990v1

摘要

arXiv:2503.19990v1 宣告类型: 新 摘要: 多步空间推理涉及理解并推理多个连续步骤中的空间关系,这对于解决复杂现实世界应用(如机器人操作、自主导航和自动化装配)至关重要。为了评估当前多模态大规模语言模型(MLLMs)是否已掌握这一基本能力,我们引入了**LEGO-Puzzles**,一个可扩展的基准,旨在通过LEGO任务评估MLLMs的空间理解和序列推理能力。LEGO-Puzzles包括1,100个精心策划的视觉问答(VQA)样本,涉及11个不同的任务,范围从基本的空间理解到复杂的多步推理。基于LEGO-Puzzles,我们对最先进的MLLMs进行了全面评估,并发现它们的空间推理能力存在显著局限:即使最强大的MLLMs也只能回答约一半的测试案例,而人类参与者的表现超过了90%。除了VQA任务,我们还评估了MLLMs根据装配图生成LEGO图像的能力。我们的实验表明,只有Gemini-2.0-Flash和GPT-4o表现出一定的跟随这些指示的能力,而其他MLLMs要么复制输入图像,要么生成完全不相关的输出。总体而言,LEGO-Puzzles揭示了现有MLLMs在空间理解和序列推理方面的重要缺陷,并强调了在多模态空间推理方面进一步发展的必要性。