摘要
图像生成扩散模型已被微调以解锁新的功能,例如图像编辑和新视角合成。我们能否同样地解锁图像生成模型以实现视觉运动控制?我们提出了 GENIMA,这是一种行为克隆代理,它对 Stable Diffusion 进行微调,以在 RGB 图像上将“联合动作”作为目标进行绘制。这些图像被输入到一个控制器中,该控制器将视觉目标映射到一系列关节位置。我们在 25 个 RLBench 任务和 9 个真实世界的操作任务上研究了 GENIMA。我们发现,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于最先进视觉运动方法的策略,尤其是在对场景扰动具有鲁棒性和泛化到新物体方面。即使缺少深度、关键点或运动规划器等先验知识,我们的方法也能与 3D 代理相媲美。