LLM2D

摘要

arXiv:2503.19990v1 宣告类型: 新摘要: 多步空间推理涉及理解并推理多个连续步骤中的空间关系，这对于解决复杂现实世界应用（如机器人操作、自主导航和自动化装配）至关重要。为了评估当前多模态大规模语言模型（MLLMs）是否已掌握这一基本能力，我们引入了**LEGO-Puzzles**，一个可扩展的基准，旨在通过LEGO任务评估MLLMs的空间理解和序列推理能力。LEGO-Puzzles包括1,100个精心策划的视觉问答（VQA）样本，涉及11个不同的任务，范围从基本的空间理解到复杂的多步推理。基于LEGO-Puzzles，我们对最先进的MLLMs进行了全面评估，并发现它们的空间推理能力存在显著局限：即使最强大的MLLMs也只能回答约一半的测试案例，而人类参与者的表现超过了90%。除了VQA任务，我们还评估了MLLMs根据装配图生成LEGO图像的能力。我们的实验表明，只有Gemini-2.0-Flash和GPT-4o表现出一定的跟随这些指示的能力，而其他MLLMs要么复制输入图像，要么生成完全不相关的输出。总体而言，LEGO-Puzzles揭示了现有MLLMs在空间理解和序列推理方面的重要缺陷，并强调了在多模态空间推理方面进一步发展的必要性。