LLM2D

摘要

配备强化学习 (RL) 的机器人有潜力仅从奖励信号中学习广泛的技能。然而，为一般操作任务获得鲁棒且密集的奖励信号仍然是一个挑战。现有的基于学习的方法需要大量数据，例如人类成功和失败的演示，来学习特定于任务的奖励函数。近年来，大型多模态基础模型在机器人领域的应用也越来越多，这些模型可以在物理环境中进行视觉推理，并为操作任务生成粗略的机器人动作。受此广泛能力的启发，在这项工作中，我们提出了基于关键点的可供性引导改进 (KAGI)，这是一种利用视觉语言模型 (VLM) 塑造的奖励进行自主 RL 的方法。最先进的 VLM 在零样本中通过关键点展示了关于可供性的令人印象深刻的推理，我们使用这些关键点来定义密集的奖励，从而引导自主机器人学习。在由自然语言描述指定的现实世界操作任务中，KAGI 提高了自主 RL 的样本效率，并在 20K 在线微调步骤中成功完成任务。此外，我们证明了 KAGI 对用于预训练的域内演示数量减少的鲁棒性，在 35K 在线微调步骤中达到了类似的性能。项目网站：https://sites.google.com/view/affordance-guided-rl