摘要
arXiv:2410.06473v3 通告类型: replace-cross
摘要:行为克隆和强化学习等机器人学习方法已经在特定环境从人类示范中合成机器人技能方面展示了巨大潜力。然而,这些方法通常需要任务特定的示范或设计复杂的模拟环境,这限制了在未见过的实际环境中开发可泛化和鲁棒的策略的能力。近期用于机器人领域的基础模型(如LLMs、VLMs)的进步显示了从大规模互联网数据中理解世界语义的巨大潜力。然而,如何利用这些知识使机器人系统理解世界的基本动力学,泛化策略到不同的任务,以及适应新环境仍是一个开放的挑战。为了缓解这些局限性,我们提出了一种机器人自我指导和自我改进的框架,该框架包含一组角色专业化对话代理,如一个高层次的顾问、一个接地代理、一个监控代理和一个机器人代理。该框架通过迭代地将基准机器人策略与环境中相关的物体关联,并利用视觉和运动线索在线调整政策的动作分布,进入更可取的状态,同时对给定机器人硬件平台的主观配置保持无偏见。我们证明,我们的方法可以在仿真和实际实验中有效引导操作策略,获得显著更高的成功率,无需额外的人类示范或广泛的探索。相关代码和视频可在以下网址获得:https://agenticrobots.github.io