摘要
我们旨在评估大型语言模型 (LLM) 在具身决策中的表现。虽然大量工作已利用 LLM 在具身环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常应用于不同的领域,用于不同的目的,并且基于不同的输入和输出构建。此外,现有的评估往往仅依赖最终的成功率,难以查明 LLM 缺少什么能力以及问题所在,这反过来又阻碍了具身智能体有效和选择性地利用 LLM。为了解决这些限制,我们提出了一种通用接口(具身智能体接口),该接口支持形式化各种类型的任务以及基于 LLM 的模块的输入输出规范。具体来说,它允许我们将 1) 一系列涉及状态和时间扩展目标的具身决策任务,2) 四种常用的基于 LLM 的决策模块:目标解释、子目标分解、动作排序和转移建模,以及 3) 一系列细粒度的度量标准(将评估分解为各种类型的错误,例如幻觉错误、 affordance 错误、各种类型的规划错误等)统一起来。总的来说,我们的基准提供了对 LLM 在不同子任务中性能的全面评估,指出了 LLM 驱动的具身 AI 系统的优缺点,并为在具身决策中有效和选择性地使用 LLM 提供了见解。