摘要
arXiv:2502.08643v2 宣告类型: replace-cross
摘要:在开放环境中的机器人操作任务指定具有挑战性,需要柔性且能适应的目标,这些目标需要与人类意图对齐,并且可以通过迭代反馈来演变。我们引入了Iterative Keypoint Reward(IKER),这是一种基于视觉的目标语言PYTHON基线奖励函数,作为动态任务规范。我们的框架利用VLMs生成和完善这些奖励函数,以便应用于多步操作任务。给定RGB-D观察和自由形式的语言指令,我们对场景中的关键点进行采样,并生成一个基于这些关键点的奖励函数。IKER基于对期望行为的常识先验,利用关键点之间的空间关系,实现精确的SE(3)控制。我们重建真实世界的场景在模拟环境中,并使用生成的奖励训练强化学习(RL)策略,然后将这些策略部署到真实环境中,形成了一个从真实到模拟再到真实的循环。我们的方法在各种场景中展示了显著的能力,包括可抓取和不可抓取任务,展示了多步任务执行、自发错误恢复以及现场策略调整的能力。结果突显了IKER在通过迭代奖励塑造使机器人能够在动态环境中完成多步任务方面的有效性。