LLM2D

摘要

自然语言处理和计算机视觉领域的最新进展已展现出从大规模互联网数据中理解世界底层动态的巨大潜力。然而，鉴于人机交互的匮乏以及缺乏大规模真实世界机器人数据的现状，将这些知识转化为机器人系统仍然是一个开放性挑战。以往的机器人学习方法，例如行为克隆和强化学习，已在从人类演示中学习机器人技能或在特定环境中从零开始学习方面展现出强大的能力。然而，这些方法通常需要特定于任务的演示或设计复杂的仿真环境，这限制了为新环境开发泛化性和鲁棒性策略的发展。为了解决这些局限性，我们提出了一种基于智能体的框架，用于将机器人策略与当前上下文联系起来，并考虑当前机器人及其环境的约束，使用视觉运动接地语言指导。该框架由一组为特定角色设计的对话智能体组成——即高级顾问、视觉接地、监控和机器人智能体。给定一个基础策略，这些智能体共同在运行时生成指导，以将基础策略的动作分布转移到更理想的未来状态。我们证明了我们的方法可以有效地指导操作策略，在模拟和真实世界实验中都能显著提高成功率，而无需额外的演示或大量的探索。项目视频请访问 https://sites.google.com/view/motorcortex/home。