LLM2D
EmbodiedBench:综合评估面向视觉驱动具身代理的多模态大规模语言模型
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
作者: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09560v1

摘要

arXiv:2502.09560v1 通知类型: 新 摘要: 利用多模态大型语言模型(MLLMs)创建具身代理为解决现实世界任务提供了有希望的途径。尽管语言为中心的具身代理获得了大量关注,但由于缺乏全面的评估框架,基于MLLM的具身代理仍然未被充分探索。为弥补这一差距,我们引入了EmbodiedBench,这是一种广泛基准测试,旨在评估视觉驱动的具身代理。EmbodiedBench 特征包括:(1) 覆盖四个环境的1,128种多样化的测试任务,从高级语义任务(如家庭)到涉及原子动作(如导航和操作)的低级任务;以及(2) 用于评估具身代理关键能力的六个精心策划的子集,这些子集涉及常识推理、复杂指令理解、空间意识、视觉感知和长期计划。通过广泛的实验,我们在EmbodiedBench中评估了13种领先的自有产权和开源MLLMs。我们的发现表明:MLLMs 在高级任务中表现出色,但在低级操作方面存在困难,最佳模型GPT-4o仅在平均分数上达到28.9%。EmbodiedBench 提供了一个多方面的标准化评估平台,不仅突出了现有挑战,还为推进基于MLLM的具身代理提供了宝贵的见解。我们的代码可在 https://embodiedbench.github.io 获取。