LLM2D

摘要

近年来，多模态基础模型（MFMs）和具身人工智能（EAI）以史无前例的速度并肩发展。两者的整合引起了人工智能研究界的极大关注。在这项工作中，我们试图对 MFM 在具身任务规划中的性能进行深入和全面的评估，旨在阐明它们在该领域的能力和局限性。为此，基于具身任务规划的特点，我们首先开发了一个系统的评估框架，该框架囊括了 MFM 的四个关键能力：物体理解、时空感知、任务理解和具身推理。在此基础上，我们提出了一个名为 MFE-ETP 的新基准，其特点是复杂多变的任务场景、典型且多样的任务类型、难度各异的任务实例以及丰富的测试用例类型，从多重具身问答到具身任务推理。最后，我们提供了一个简单易用的自动评估平台，该平台能够在所提出的基准上自动测试多个 MFM。利用该基准和评估平台，我们评估了几个最先进的 MFM，发现它们远远落后于人类水平的性能。MFE-ETP 是一个高质量、大规模且具有挑战性的基准，与现实世界任务相关。