LLM2D

摘要

arXiv:2502.09560v1 通知类型: 新摘要: 利用多模态大型语言模型（MLLMs）创建具身代理为解决现实世界任务提供了有希望的途径。尽管语言为中心的具身代理获得了大量关注，但由于缺乏全面的评估框架，基于MLLM的具身代理仍然未被充分探索。为弥补这一差距，我们引入了EmbodiedBench，这是一种广泛基准测试，旨在评估视觉驱动的具身代理。EmbodiedBench 特征包括：(1) 覆盖四个环境的1,128种多样化的测试任务，从高级语义任务（如家庭）到涉及原子动作（如导航和操作）的低级任务；以及(2) 用于评估具身代理关键能力的六个精心策划的子集，这些子集涉及常识推理、复杂指令理解、空间意识、视觉感知和长期计划。通过广泛的实验，我们在EmbodiedBench中评估了13种领先的自有产权和开源MLLMs。我们的发现表明：MLLMs 在高级任务中表现出色，但在低级操作方面存在困难，最佳模型GPT-4o仅在平均分数上达到28.9%。EmbodiedBench 提供了一个多方面的标准化评估平台，不仅突出了现有挑战，还为推进基于MLLM的具身代理提供了宝贵的见解。我们的代码可在 https://embodiedbench.github.io 获取。