LLM2D

摘要

arXiv:2502.08643v1 任务类型: 跨领域摘要：在开放世界环境中为机器人操作指定任务具有挑战性，需要灵活和适应性强的目标，这些目标能够与人类意图对齐，并在逐次反馈中演变。我们引入了迭代关键点奖励（Iterative Keypoint Reward, IKER），这是一种基于视觉的、基于Python的奖励函数，用作动态任务规范。我们的框架利用VLMs生成和细化这些奖励函数以适应多步骤操纵任务。给定RGB-D观察和自由形式的语言指令，我们对场景中进行采样关键点，并生成基于这些关键点的奖励函数。IKER基于关于期望行为的常识先验，在关键点的空间关系上进行操作，从而实现精确的SE(3)控制。我们在仿真环境中重建现实世界的场景，并使用生成的奖励对强化学习（RL）策略进行训练，然后将这些策略部署到现实世界中，从而形成一个从仿真到现实的闭环。我们的方法在各种场景中展示了显著的能力，包括可抓取任务和不可抓取任务，展示了多步骤任务执行、自发错误恢复和即时策略调整。结果突显了IKER通过迭代奖励塑造在动态环境中使机器人完成多步骤任务的有效性。