LLM2D
一种基于VLM生成的迭代关键点奖励的实到仿再到实的机器人 manipulation 方法
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards
作者: Shivansh Patel, Xinchen Yin, Wenlong Huang, Shubham Garg, Hooshang Nayyeri, Li Fei-Fei, Svetlana Lazebnik, Yunzhu Li
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08643v1

摘要

arXiv:2502.08643v1 任务类型: 跨领域 摘要:在开放世界环境中为机器人操作指定任务具有挑战性,需要灵活和适应性强的目标,这些目标能够与人类意图对齐,并在逐次反馈中演变。我们引入了迭代关键点奖励(Iterative Keypoint Reward, IKER),这是一种基于视觉的、基于Python的奖励函数,用作动态任务规范。我们的框架利用VLMs生成和细化这些奖励函数以适应多步骤操纵任务。给定RGB-D观察和自由形式的语言指令,我们对场景中进行采样关键点,并生成基于这些关键点的奖励函数。IKER基于关于期望行为的常识先验,在关键点的空间关系上进行操作,从而实现精确的SE(3)控制。我们在仿真环境中重建现实世界的场景,并使用生成的奖励对强化学习(RL)策略进行训练,然后将这些策略部署到现实世界中,从而形成一个从仿真到现实的闭环。我们的方法在各种场景中展示了显著的能力,包括可抓取任务和不可抓取任务,展示了多步骤任务执行、自发错误恢复和即时策略调整。结果突显了IKER通过迭代奖励塑造在动态环境中使机器人完成多步骤任务的有效性。