LLM2D
统一的世界模型:结合视频和动作扩散的大规模机器人数据集预训练
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets
作者: Chuning Zhu, Raymond Yu, Siyuan Feng, Benjamin Burchfiel, Paarth Shah, Abhishek Gupta
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02792v1

摘要

arXiv:2504.02792v1 宣布类型: cross 摘要:模仿学习已成为构建通用机器人的一种有前景的方法。然而,由于模仿学习依赖于高质量的专家演示,将其扩展到大规模的机器人基础模型仍然具有挑战性。与此同时,大量描绘各种环境和多样化行为的视频数据唾手可得。这些数据为真实世界的动态和代理-环境互动提供了丰富的信息来源。然而,利用这些数据直接进行模仿学习由于大多数当前方法缺乏所需的动作标注而变得困难。在这项工作中,我们提出了统一世界模型(UWM),这是一种框架,允许同时利用视频数据和动作数据进行策略学习。具体来说,UWM 将动作扩散过程和视频扩散过程整合到一个统一的变换器架构中,其中每个模态有自己的独立扩散时间步。我们展示了通过简单地控制每个扩散时间步,UWM 可以灵活地表示策略、前向动力学、逆向动力学以及视频生成器。通过模拟和实际世界的实验,我们展示了以下几点:(1)UWM 在同时包含动力学和动作预测的大型多任务机器人数据集上实现了有效的预训练,其生成的策略比模仿学习更具泛化能力和鲁棒性;(2)UWM 自然地使从无动作的视频数据中学习变得更加容易,通过独立控制针对特定模态的扩散时间步,进一步提高了微调策略的性能。我们的结果显示,UWM 提供了一个有希望的步骤,以利用大规模、异构的数据集进行可扩展的机器人学习,并提供了模仿学习和世界建模之间常见不统一范式的简单统一。相关信息、视频和代码可在 https://weirdlabuw.github.io/uwm/ 可用。