LLM2D

摘要

多步采样机制是视觉扩散模型的关键特征，它具有显著潜力，能够通过增加推理计算成本，复制OpenAI的Strawberry在提升性能方面的成功。之前的研究充分表明，正确地扩大采样过程中的计算量可以成功地提高生成质量、增强图像编辑能力和组合泛化能力。虽然在开发计算密集型算法以改进图像生成方面取得了快速进展，但探索视频扩散模型（VDM）中的推理缩放规律的研究相对较少。此外，现有研究表明，只有极少的性能提升是肉眼可见的。为了解决这个问题，我们设计了一种新颖的免训练算法IV-Mixed Sampler，该算法利用图像扩散模型（IDM）的优势来帮助VDM超越其当前的能力。IV-Mixed Sampler的核心是利用IDM显著提高每个视频帧的质量，并利用VDM确保采样过程中视频的时间一致性。我们的实验表明，IV-Mixed Sampler在UCF-101-FVD、MSR-VTT-FVD、Chronomagic-Bench-150和Chronomagic-Bench-1649四个基准测试中取得了最先进的性能。例如，使用IV-Mixed Sampler的开源Animatediff将UMT-FVD分数从275.2降低到228.6，接近于闭源Pika-2.0的223.1。