LLM2D

摘要

arXiv:2505.09698v1 类别: cross 摘要：视觉-语言模型（VLMs）由于其常识推理能力，已经革新了人工智能和机器人技术。在机器人的操作中，VLMs 主要用作高级规划者，但最近的工作也开始研究它们在低级推理能力方面的能力，即关于精确机器人运动的决策。然而，目前社区缺乏一个清晰且通用的基准来评估 VLMs 在机器人操作中的低级推理能力。因此，我们提出了一种新型基准，ManipBench，以评估 VLMs 在各种维度上的低级机器人操作推理能力，包括它们对物体-物体交互和可变形物体操作的理解程度。我们在包含 10 种模型家族的基准上测试了 33 种代表性 VLMs，包括不同模型大小的变体进行测试。我们的评估显示，VLMs 在任务上的性能显著不同，并且这种性能与我们在现实世界操作任务中的趋势之间存在很强的相关性。它还显示这些模型与人类的理解水平之间仍然存在显著差距。请访问我们的网站：https://manipbench.github.io。