摘要
arXiv:2502.03729v2 宣告类型: replace-cross
摘要:端到端的模仿学习为机器人策略的训练提供了一种前景广阔的方法。然而,将其应用于新的环境仍然是一个重大的挑战。尽管大规模的机器人演示数据集展示了诱导泛化的潜力,但它们在扩展时资源密集。相比之下,人类视频数据丰富多样,提供了一个有吸引力的替代方案。然而,这些人类视频数据缺乏动作标签,使其在模仿学习中的使用变得复杂。现有方法试图提取基于地面的动作表示(例如,手部姿势),但生成的策略在人类和机器人动作的体现差距上难以跨越。我们提出了一种替代方法:利用人类视频中的基于语言的推理来引导机器人动作,从而训练可泛化的机器人策略。基于近期基于推理的策略架构的进展,我们引入了基于推理的动作免费数据(RAD)。RAD 从带有推理和动作标签的机器人演示数据(尽管是动作免费的)和仅带有推理标签的动作免费人类视频数据中学习。机器人数据教会模型将推理映射到低级动作,而动作免费数据则增强了推理能力。此外,我们还将发布一个包含3,377个人手演示的新数据集,这些演示与Bridge V2基准兼容,并旨在促进基于推理的机器人学习的未来研究。我们的实验表明,RAD 使跨越体现差距的有效转移成为可能,使机器人能够执行仅在动作免费数据中见过的任务。此外,扩展动作免费推理数据显著提高了策略性能,并增强了对新任务的泛化能力。这些结果突显了通过动作免费数据集进行基于推理的学习在推进可泛化的机器人控制方面的潜力。项目页面: https://rad-generalization.github.io