LLM2D

摘要

arXiv:2502.07825v1 Announce Type: cross 抽象：在大规模互联网数据集上预训练的视频生成模型已经取得了显著的成功，特别是在生成逼真的合成视频方面。然而，它们往往基于静态提示（例如，文本或图片）生成片段，限制了其对交互和动态场景的建模能力。在本文中，我们提出了一种名为动态世界模拟（DWS）的新方法，将预训练的视频生成模型转化为可控的世界模拟器，能够在指定的动作轨迹下运行。为了在条件动作和生成的视觉变化之间实现精确对齐，我们引入了一个轻量级、通用的动作条件模块，可以无缝集成到任何现有模型中。我们没有专注于复杂的视觉细节，而是证明了一致的动力转型建模是构建强大世界模拟器的关键。基于这一洞见，我们进一步引入了运动增强损失，通过迫使模型更有效地捕捉动态变化来提高动作可控性。实验表明，DWS 可以灵活应用于扩散和自回归变换器模型，实现了在游戏和机器人领域生成动作可控、动态一致视频的显著改进。此外，为了促进在下游任务（如基于模型的强化学习）中应用所学习的世界模拟器，我们提出了一种优先级想象方法，以提高采样效率，并证明了与现有最佳方法相比的竞争力。