LLM2D
使用语言模型的交互式任务规划
Interactive Task Planning with Language Models
作者: Boyi Li, Philipp Wu, Pieter Abbeel, Jitendra Malik
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2310.10645v2

摘要

arXiv:2310.10645v2 宣告类型: replace-cross 摘要:交互式机器人框架实现了长期规划任务,并且在执行过程中可以轻松地适应新目标和不同的任务。然而,大多数传统方法需要预定义模块设计,这使得它们难以适应不同的目标。最近基于大型语言模型的方法可以允许更开放的规划,但通常需要大量的提示工程或特定领域的预训练模型。为了解决这个问题,我们提出了一种简单的框架,通过结合高层规划和低层技能执行来使用语言模型进行交互式任务规划,利用预训练的视觉模型将场景与语言进行联系。我们在真正制作奶茶饮料的任务上验证了我们系统的鲁棒性。我们的系统能够为未见过的目标生成新颖的高层指令,并成功地完成用户任务。此外,当用户发送新的请求时,我们的系统能够根据新的请求、任务指南和之前执行的步骤进行相应的重新规划,具备精确性。这种方法可以通过简单地替换任务指南轻松适应不同的任务,无需额外的复杂提示工程。请访问我们的网站 https://wuphilipp.github.io/itp_site 和视频 https://youtu.be/TrKLuyv26_g 了解更多详细信息。