摘要
近年来,多模态基础模型(MFMs)和具身人工智能(EAI)以史无前例的速度并肩发展。两者的整合引起了人工智能研究界的极大关注。在这项工作中,我们试图对 MFM 在具身任务规划中的性能进行深入和全面的评估,旨在阐明它们在该领域的能力和局限性。为此,基于具身任务规划的特点,我们首先开发了一个系统的评估框架,该框架囊括了 MFM 的四个关键能力:物体理解、时空感知、任务理解和具身推理。在此基础上,我们提出了一个名为 MFE-ETP 的新基准,其特点是复杂多变的任务场景、典型且多样的任务类型、难度各异的任务实例以及丰富的测试用例类型,从多重具身问答到具身任务推理。最后,我们提供了一个简单易用的自动评估平台,该平台能够在所提出的基准上自动测试多个 MFM。利用该基准和评估平台,我们评估了几个最先进的 MFM,发现它们远远落后于人类水平的性能。MFE-ETP 是一个高质量、大规模且具有挑战性的基准,与现实世界任务相关。