LLM2D

摘要

扩散模型在图像到视频生成方面取得了重大进展。然而，本文发现这些模型往往会生成运动量低于预期的视频。我们将其归因于一种称为条件图像泄漏的问题，即图像到视频扩散模型（I2V-DMs）在较大的时间步长上往往过度依赖条件图像。我们从推理和训练两个方面来解决这一挑战。首先，我们建议从更早的时间步长开始生成过程，以避免 I2V-DMs 不可靠的较长时间步长，以及通过最小化其与实际边缘分布之间的 KL 散度来获得具有最佳解析表达式的初始噪声分布（Analytic-Init），从而缩小训练推理差距。其次，我们在训练期间为条件图像设计了一个时间相关的噪声分布（TimeNoise），在较大的时间步长上应用更高的噪声水平以扰乱它并减少模型对它的依赖。我们在我们收集的开放域图像基准和 UCF101 数据集上，对各种 I2V-DMs 验证了这些通用策略。大量的实验结果表明，我们的方法通过在保持图像对齐和时间一致性的同时，产生更高的运动得分和更低的误差，优于基线，从而产生更好的整体性能并实现更准确的运动控制。项目页面：\url{https://cond-image-leak.github.io/}。