摘要
大型文本到视频 (T2V) 和图像到视频 (I2V) 扩散模型的最新进展极大地增强了视频生成,尤其是在关键帧插值方面。然而,现有的图像到视频扩散模型虽然在从单个条件帧生成视频方面功能强大,但需要适应两帧(开始和结束)条件生成,这对于有效的边界插值至关重要。不幸的是,现有的在并行中融合时间正向和反向路径的方法通常会遇到偏离流形的问题,从而导致伪影或需要多次迭代重新加噪步骤。在本文中,我们提出了一种新颖的双向采样策略,以解决这些偏离流形问题,而无需进行广泛的重新加噪或微调。我们的方法分别根据开始帧和结束帧,沿着正向和反向路径进行顺序采样,从而确保更连贯且在流形上的中间帧生成。此外,我们还加入了先进的引导技术,CFG++ 和 DDS,以进一步增强插值过程。通过整合这些技术,我们的方法取得了最先进的性能,能够高效地生成关键帧之间高质量、平滑的视频。在一台单一的 3090 GPU 上,我们的方法可以在 195 秒内以 1024 x 576 分辨率插值 25 帧,使其成为关键帧插值的首选解决方案。