摘要
arXiv:2504.02792v2 宣告类型: replace-cross
摘要:模仿学习已成为构建通用型机器人的一种有前景的方法。然而,由于其依赖于高质量的专家演示,将模仿学习扩展到大型机器人基础模型仍然具有挑战性。与此同时,大量描绘广泛环境和多样行为的视频数据随时可用。这些数据为现实世界的动力学和代理-环境交互提供了丰富的信息来源。然而,直接利用这些数据进行模仿学习由于大多数现代方法缺乏所需的动作标注而证明是困难的。在本工作中,我们介绍了统一世界模型(Unified World Models, UWM),这是一种允许利用视频和动作数据进行策略学习的框架。具体而言,UWM 在统一的变换器架构中集成了动作扩散过程和视频扩散过程,其中各自模态的独立扩散时间步控制每个过程。通过简单地控制每个扩散时间步,UWM 可灵活地表示策略、前向动力学、逆动力学以及视频生成器。通过模拟和实际世界试验,我们展示:(1) UWM 能够有效预训练于包含动力学和动作预测的大规模多任务机器人数据集,从而产生比模仿学习更具泛化能力和鲁棒性的策略;(2) UWM 自然地促进了通过控制模态特定的扩散时间步从无动作视频数据中学习,进一步提高了微调策略的性能。我们的结果显示,UWM 提供了一种有前途的方法,通过利用大规模异质数据集实现可扩展的机器人学习,并提供了模仿学习和世界建模这两个通常不同的范式的简单统一。有关视频和代码可在 https://weirdlabuw.github.io/uwm/ 获取。