LLM2D

摘要

arXiv:2502.03729v1 类别: cross 摘要: 端到端的 imitation learning 提供了一种有前景的方法来训练机器人策略。然而，将这些策略泛化到新的环境中仍然是一个重要挑战。尽管大规模的机器人演示数据集展示了引发泛化的潜力，但它们在扩展方面资源密集。相比之下，人类视频数据既丰富又多样化，是一个有吸引力的替代方案。然而，这些人类视频数据缺乏动作标签，使它们在模仿学习中的使用变得复杂。现有的方法尝试提取与动作相关的语义表示（例如，手势），但这些方法生成的策略难以弥合人类和机器人动作之间的体体现象差距。我们提出了一种替代方法：利用人类视频中的语言推理来指导机器人动作，从而训练可泛化的机器人策略。在基于推理的策略架构的最新进展的基础上，我们引入了 Reasoning through Action-free Data (RAD)。RAD 从包含推理和动作标签的机器人演示数据以及仅包含推理标签的无动作数据中学习。机器人数据教会模型将推理映射到低级动作，而无动作数据则增强推理能力。此外，我们将发布一个包含 3,377 个带有推理标注的人类手势示范的新数据集，这些数据集与 Bridge V2 基准兼容，并旨在促进未来基于推理驱动的机器人学习研究。我们的实验表明，RAD 使跨体体现象差距的有效迁移成为可能，使机器人能够在仅观察到无动作数据的情况下完成任务。此外，无动作推理数据的扩展显著提高了策略性能并增强了对新颖任务的泛化。这些结果突显了无动作数据驱动的推理学习在推动可泛化机器人控制方面的潜力。项目页面: https://rad-generalization.github.io