摘要
arXiv:2502.08643v1 任务类型: 跨领域
摘要:在开放世界环境中为机器人操作指定任务具有挑战性,需要灵活和适应性强的目标,这些目标能够与人类意图对齐,并在逐次反馈中演变。我们引入了迭代关键点奖励(Iterative Keypoint Reward, IKER),这是一种基于视觉的、基于Python的奖励函数,用作动态任务规范。我们的框架利用VLMs生成和细化这些奖励函数以适应多步骤操纵任务。给定RGB-D观察和自由形式的语言指令,我们对场景中进行采样关键点,并生成基于这些关键点的奖励函数。IKER基于关于期望行为的常识先验,在关键点的空间关系上进行操作,从而实现精确的SE(3)控制。我们在仿真环境中重建现实世界的场景,并使用生成的奖励对强化学习(RL)策略进行训练,然后将这些策略部署到现实世界中,从而形成一个从仿真到现实的闭环。我们的方法在各种场景中展示了显著的能力,包括可抓取任务和不可抓取任务,展示了多步骤任务执行、自发错误恢复和即时策略调整。结果突显了IKER通过迭代奖励塑造在动态环境中使机器人完成多步骤任务的有效性。