摘要
arXiv:2502.03214v1 交互类型: 交叉
摘要:视觉-语言模型(VLMs)在空间推理和视觉对齐方面存在问题。为克服这些限制,我们提出了iVISPAR,这是一个互动多模态基准,旨在评估VLMs作为代理的空间推理能力。iVISPAR基于滑动拼图游戏的一种变体——一个需要逻辑规划、空间意识和多步推理的经典问题。该基准支持视觉2D、3D和文本输入模态,使对VLMs的规划和推理技能进行全面评估成为可能。我们评估了一系列最新的开源和封闭源VLMs,比较了它们的性能,并提供最优路径解决方案和人类基线来评估任务的复杂性和人类的可行性。结果显示,虽然一些VLMs在简单空间任务上表现良好,但在更复杂配置和问题属性方面遇到困难。值得注意的是,尽管VLMs在2D视觉方面通常优于3D或基于文本的表示,但它们始终未能达到人类性能,突显了视觉对齐的持续挑战。这强调了当前VLM能力中的关键缺陷,突显了它们在实现人类级认知方面的局限性。