LLM2D

摘要

在开放世界环境中进行机器人规划和执行是一个复杂的问题，因为状态空间巨大，任务体现形式变化多样。近年来，感知算法的进步，加上用于规划的大型语言模型 (LLM)，为这些挑战提供了有希望的解决方案，因为 LLM 的常识推理能力为有效搜索动作空间提供了强大的启发式方法。然而，先前的工作未能解决 LLM 幻觉的可能性，这导致计划的动作无法执行，主要原因是高层或低层逻辑谬误。为了应对由于这种幻觉导致的自动化故障，我们引入了 ConceptAgent，这是一个自然语言驱动的机器人平台，专为在非结构化环境中执行任务而设计。我们专注于 LLM 基于规划在复杂状态和动作空间中的可扩展性和可靠性，并提出了旨在限制这些缺点的创新，包括 1) 谓词接地，以防止和恢复不可行的动作，以及 2) LLM 引导的蒙特卡罗树搜索的具身版本，并进行自我反思。在模拟实验中，ConceptAgent 在三个房间布局和 30 个简单级别的具身任务中实现了 19% 的任务完成率，优于其他最先进的 LLM 驱动的推理基线，在相同的基准测试中分别获得了 10.26% 和 8.11% 的分数。此外，对中等难度到困难的具身任务的消融研究表明，从基线代理到完全增强的 ConceptAgent，任务完成率提高了 20%，突出了谓词接地和 LLM 引导的树搜索对在复杂状态和动作空间中实现更强大的自动化的单独贡献和联合贡献。