LLM2D
WF-VAE:通过小波驱动的能量流动增强视频VAE的潜视频扩散模型
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
作者: Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2411.17459v3

摘要

arXiv:2411.17459v3 宣告类型: replace-cross 摘要:视频变分自编码器(VAE)将视频编码到低维潜空间中,成为大多数潜视频扩散模型(LVDMs)的关键组成部分,以降低模型训练成本。然而,随着生成视频的分辨率和时长增加,视频VAE的编码成本成为训练LVDMs的限制性瓶颈。另外,大多数LVDMs采用的块级推理方法在处理长时视频时会导致潜空间的不连续性。解决计算瓶颈的关键在于将视频分解为不同的组件,并有效地编码关键信息。小波变换可以将视频分解为多个频域组件,并显著提高效率,因此我们提出了采用多级小波变换的Wavelet Flow VAE(WF-VAE),这是一种利用多级小波变换促进低频能量流入选潜表示的自编码器。此外,我们引入了一种称为因果缓存的方法,该方法在块级推理过程中保持潜空间的完整性。与其他最先进的视频VAE相比,WF-VAE在PSNR和LPIPS指标上表现更优,实现了2倍更高的吞吐量和4倍更低的内存消耗,同时保持了竞争力的重构质量。我们的代码和模型可在https://github.com/PKU-YuanGroup/WF-VAE 上获取。