LLM2D

摘要

多步采样机制是视觉扩散模型的关键特征，它具有显著的潜力来复制 OpenAI 的 Strawberry 的成功，通过增加推理计算成本来提升性能。已有充分的先验研究表明，在采样过程中正确地扩展计算量可以成功地提升生成质量、增强图像编辑和组合泛化能力。虽然在开发推理密集型算法以改善图像生成方面取得了快速进展，但对视频扩散模型 (VDM) 中的推理缩放规律的研究相对较少。此外，现有研究表明，只有微不足道的性能提升是肉眼可见的。为了解决这个问题，我们设计了一种新颖的无训练算法 IV-Mixed Sampler，它利用图像扩散模型 (IDM) 的优势来帮助 VDM 超越其当前的能力。IV-Mixed Sampler 的核心是利用 IDM 显着提高每个视频帧的质量，并利用 VDM 在采样过程中确保视频的时间一致性。我们的实验表明，IV-Mixed Sampler 在包括 UCF-101-FVD、MSR-VTT-FVD、Chronomagic-Bench-150 和 Chronomagic-Bench-1649 在内的 4 个基准测试中取得了最先进的性能。例如，使用 IV-Mixed Sampler 的开源 Animatediff 将 UMT-FVD 分数从 275.2 降至 228.6，接近于闭源 Pika-2.0 的 223.1。