摘要
现实世界中的长时程具身规划是具身人工智能的基础。为了完成长时程任务,智能体需要将抽象指令分解成详细步骤。先前的工作主要依赖 GPT-4V 将任务分解成预定义的动作,由于 GPT-4V 对更广泛技能集的理解有限,这限制了任务的多样性。因此,我们提出了 ReLEP,一个用于现实世界长时程具身规划的突破性框架,它可以完成各种日常任务。其核心是一个经过微调的大型视觉语言模型,它根据输入指令和场景图像将计划制定为技能函数序列。这些函数是从精心设计的技能库中选择的。ReLEP 还配备了用于计划和状态回忆的记忆模块以及用于跨机器人类型灵活性的机器人配置模块。此外,我们提出了一种半自动数据生成管道来解决数据集稀缺问题。在八个日常具身任务上的现实世界离线实验表明,ReLEP 能够完成长时程具身任务,并且优于其他最先进的基线方法。