摘要
虽然文本到视频扩散模型取得了显著进展,但许多模型仍然面临生成具有时间一致性视频的挑战。在扩散框架内,引导技术已被证明可有效提高推理过程中的输出质量;然而,将这些方法应用于视频扩散模型会带来处理整个序列计算的额外复杂性。为了解决这个问题,我们提出了一种名为MotionPrompt的新颖框架,该框架通过光流引导视频生成过程。具体来说,我们训练了一个判别器来区分真实视频和生成视频中随机帧对之间的光流。鉴于提示可以影响整个视频,我们在反向采样步骤中使用来自应用于随机帧对的训练判别器的梯度来优化可学习的标记嵌入。这种方法允许我们的方法生成视觉上连贯的视频序列,这些序列密切反映了自然的运动动态,而不会影响生成内容的保真度。我们在各种模型上证明了我们方法的有效性。