LLM2D
基于视觉运动语言引导的机器人策略接地
Grounding Robot Policies with Visuomotor Language Guidance
作者: Arthur Bucker, Pablo Ortega, Jonathan Francis, Jean Oh
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06473v1

摘要

自然语言处理和计算机视觉领域的最新进展在理解从大规模互联网数据中获取的世界的潜在动力方面展现出巨大潜力。然而,将这些知识转化为机器人系统仍然是一个开放的挑战,因为人机交互的稀缺性和缺乏大规模的真实世界机器人数据。以往的机器人学习方法,如行为克隆和强化学习,在从人类演示中或在特定环境中从头开始学习机器人技能方面表现出强大的能力。然而,这些方法通常需要特定于任务的演示或设计复杂的模拟环境,这限制了针对新环境的通用且鲁棒策略的开发。为了解决这些局限性,我们提出了一种基于代理的框架,用于将机器人策略与当前上下文相结合,并考虑当前机器人的约束及其使用视觉运动接地语言指导的环境。所提出的框架由一组为特定角色设计的对话代理组成——即高级顾问、视觉接地、监控和机器人代理。给定一个基本策略,代理在运行时共同生成指导,以将基本策略的动作分布转移到更理想的未来状态。我们证明了我们的方法可以有效地指导操作策略,以在模拟和真实世界实验中实现显著更高的成功率,而无需额外的​​人类演示或广泛的探索。项目视频位于 https://sites.google.com/view/motorcortex/home。