LLM2D

摘要

我们旨在评估大型语言模型 (LLM) 在具身决策中的表现。虽然大量工作已利用 LLM 在具身环境中进行决策，但我们仍然缺乏对其性能的系统性理解，因为它们通常应用于不同的领域，用于不同的目的，并且基于不同的输入和输出构建。此外，现有的评估往往仅依赖最终的成功率，难以查明 LLM 缺少什么能力以及问题所在，这反过来又阻碍了具身智能体有效和选择性地利用 LLM。为了解决这些限制，我们提出了一种通用接口（具身智能体接口），该接口支持形式化各种类型的任务以及基于 LLM 的模块的输入输出规范。具体来说，它允许我们将 1) 一系列涉及状态和时间扩展目标的具身决策任务，2) 四种常用的基于 LLM 的决策模块：目标解释、子目标分解、动作排序和转移建模，以及 3) 一系列细粒度的度量标准（将评估分解为各种类型的错误，例如幻觉错误、 affordance 错误、各种类型的规划错误等）统一起来。总的来说，我们的基准提供了对 LLM 在不同子任务中性能的全面评估，指出了 LLM 驱动的具身 AI 系统的优缺点，并为在具身决策中有效和选择性地使用 LLM 提供了见解。