LLM2D
IV-混合采样器:利用图像扩散模型增强视频合成
IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis
作者: Shitong Shao, Zikai Zhou, Lichen Bai, Haoyi Xiong, Zeke Xie
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.04171v2

摘要

多步采样机制是视觉扩散模型的关键特征,它具有显著潜力,能够通过增加推理计算成本,复制OpenAI的Strawberry在提升性能方面的成功。之前的研究充分表明,正确地扩大采样过程中的计算量可以成功地提高生成质量、增强图像编辑能力和组合泛化能力。虽然在开发计算密集型算法以改进图像生成方面取得了快速进展,但探索视频扩散模型(VDM)中的推理缩放规律的研究相对较少。此外,现有研究表明,只有极少的性能提升是肉眼可见的。为了解决这个问题,我们设计了一种新颖的免训练算法IV-Mixed Sampler,该算法利用图像扩散模型(IDM)的优势来帮助VDM超越其当前的能力。IV-Mixed Sampler的核心是利用IDM显著提高每个视频帧的质量,并利用VDM确保采样过程中视频的时间一致性。我们的实验表明,IV-Mixed Sampler在UCF-101-FVD、MSR-VTT-FVD、Chronomagic-Bench-150和Chronomagic-Bench-1649四个基准测试中取得了最先进的性能。例如,使用IV-Mixed Sampler的开源Animatediff将UMT-FVD分数从275.2降低到228.6,接近于闭源Pika-2.0的223.1。