LLM2D
基于视觉提示的 affordance 引导强化学习
Affordance-Guided Reinforcement Learning via Visual Prompting
作者: Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2407.10341v2

摘要

配备强化学习 (RL) 的机器人有潜力仅从奖励信号中学习广泛的技能。然而,为一般操作任务获得鲁棒且密集的奖励信号仍然是一个挑战。现有的基于学习的方法需要大量数据,例如人类成功和失败的演示,来学习特定于任务的奖励函数。近年来,大型多模态基础模型在机器人领域的应用也越来越多,这些模型可以在物理环境中进行视觉推理,并为操作任务生成粗略的机器人动作。受此广泛能力的启发,在这项工作中,我们提出了基于关键点的可供性引导改进 (KAGI),这是一种利用视觉语言模型 (VLM) 塑造的奖励进行自主 RL 的方法。最先进的 VLM 在零样本中通过关键点展示了关于可供性的令人印象深刻的推理,我们使用这些关键点来定义密集的奖励,从而引导自主机器人学习。在由自然语言描述指定的现实世界操作任务中,KAGI 提高了自主 RL 的样本效率,并在 20K 在线微调步骤中成功完成任务。此外,我们证明了 KAGI 对用于预训练的域内演示数量减少的鲁棒性,在 35K 在线微调步骤中达到了类似的性能。项目网站:https://sites.google.com/view/affordance-guided-rl