摘要
扩散模型在图像生成任务(包括图像编辑和视频创作)中展现出非凡的能力,代表着对物理世界的良好理解。另一方面,扩散模型在机器人控制任务中也展现出前景,通过对动作进行去噪,也就是所谓的扩散策略。尽管扩散生成模型和扩散策略展现出不同的能力——分别是图像预测和机器人动作——但它们在技术上遵循类似的去噪过程。在机器人任务中,预测未来图像和生成动作的能力高度相关,因为它们共享物理世界的相同底层动力学。基于这一见解,我们引入了PAD,这是一个新颖的视觉策略学习框架,它在一个联合去噪过程中统一了图像预测和机器人动作。具体来说,PAD利用扩散Transformer (DiT) 来无缝集成图像和机器人状态,从而能够同时预测未来的图像和机器人动作。此外,PAD支持在机器人演示和大型视频数据集上进行联合训练,并且可以轻松扩展到其他机器人模式,例如深度图像。PAD超越了以前的方法,通过在一个数据高效的模仿学习环境中使用单一的文本条件视觉策略,在完整的Metaworld基准测试中取得了显著的26.3%的相对改进。此外,与最强的基线相比,PAD在真实的机器人操作环境中对未见任务展现出优越的泛化能力,成功率提高了28.0%。项目页面:https://sites.google.com/view/pad-paper