LLM2D

摘要

图像生成扩散模型已被微调以解锁新的功能，例如图像编辑和新视角合成。我们能否同样地解锁图像生成模型以实现视觉运动控制？我们提出了 GENIMA，这是一种行为克隆代理，它对 Stable Diffusion 进行微调，以在 RGB 图像上将“联合动作”作为目标进行绘制。这些图像被输入到一个控制器中，该控制器将视觉目标映射到一系列关节位置。我们在 25 个 RLBench 任务和 9 个真实世界的操作任务上研究了 GENIMA。我们发现，通过将动作提升到图像空间，互联网预训练的扩散模型可以生成优于最先进视觉运动方法的策略，尤其是在对场景扰动具有鲁棒性和泛化到新物体方面。即使缺少深度、关键点或运动规划器等先验知识，我们的方法也能与 3D 代理相媲美。