LLM2D

摘要

arXiv:2411.15540v2 宣告类型: 替换-交叉摘要：尽管文本到视频扩散模型取得了显著进展，但在生成具有时间一致性的视频方面仍然面临诸多挑战。在扩散框架中，指导技术在提高推理输出质量方面已显示出有效性；然而，将这些方法应用于视频扩散模型会带来处理整个序列计算的额外复杂性。为了解决这个问题，我们提出了一种名为 MotionPrompt 的新型框架，该框架通过光流引导视频生成过程。具体而言，我们训练一个判别器，使其能够区分真实视频和生成视频中随机帧对之间的光流。由于提示可以影响整个视频，我们通过使用判别器训练过程中应用于随机帧对的梯度，在反向采样步骤中优化可学习的标记嵌入。这种方法使得我们的方法能够生成视觉上连贯且接近自然运动特性的视频序列，而不牺牲生成内容的保真度。我们通过多种模型展示了我们方法的有效性。