LLM2D
基于视觉-语言引导的闭环反馈的无数据机器人长期 manipulation
Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback
作者: Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenshan Bing, Alois Knoll
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.21969v1

摘要

arXiv:2503.21969v1 交叉公告类型: cross 摘要: 语言条件下的机器人操作近期取得了进展,利用模仿和强化学习使机器人能够根据人类命令执行任务。然而,这些方法在泛化、适应性和大规模专用数据集方面通常存在局限性,不像计算机视觉等领域那样拥有丰富的数据,这使得长期任务执行具有挑战性。为了解决这些差距,我们介绍了DAHLIA,一种语言条件下的长期机器人操作数据无关框架,利用大型语言模型(LLMs)进行实时任务规划和执行。DAHLIA采用双重隧道架构,其中LLM驱动的规划器与协同规划器协作分解任务并生成可执行计划,而一个报告LLM提供闭环反馈,使适应性重新规划成为可能,并确保在潜在故障时任务的恢复。此外,DAHLIA在任务推理中集成思维链(CoT)和时间抽象,以提高操作执行的效率、可追溯性和鲁棒性。我们的框架在多种长期任务上展示了最先进的性能,在模拟和现实世界场景中均表现出强大的泛化能力。更多信息和代码可在https://ghiara.github.io/DAHLIA/获取。