LLM2D

摘要

arXiv:2503.21969v1 交叉公告类型: cross 摘要: 语言条件下的机器人操作近期取得了进展，利用模仿和强化学习使机器人能够根据人类命令执行任务。然而，这些方法在泛化、适应性和大规模专用数据集方面通常存在局限性，不像计算机视觉等领域那样拥有丰富的数据，这使得长期任务执行具有挑战性。为了解决这些差距，我们介绍了DAHLIA，一种语言条件下的长期机器人操作数据无关框架，利用大型语言模型（LLMs）进行实时任务规划和执行。DAHLIA采用双重隧道架构，其中LLM驱动的规划器与协同规划器协作分解任务并生成可执行计划，而一个报告LLM提供闭环反馈，使适应性重新规划成为可能，并确保在潜在故障时任务的恢复。此外，DAHLIA在任务推理中集成思维链（CoT）和时间抽象，以提高操作执行的效率、可追溯性和鲁棒性。我们的框架在多种长期任务上展示了最先进的性能，在模拟和现实世界场景中均表现出强大的泛化能力。更多信息和代码可在https://ghiara.github.io/DAHLIA/获取。