摘要
视频变分自编码器 (VAE) 将视频编码到低维潜在空间中,成为大多数潜在视频扩散模型 (LVDM) 的关键组成部分,以降低模型训练成本。然而,随着生成视频的分辨率和时长增加,视频 VAE 的编码成本成为训练 LVDM 的瓶颈。此外,大多数 LVDM 采用的分块推理方法在处理长视频时可能导致潜在空间的不连续性。解决计算瓶颈的关键在于将视频分解成不同的组件并有效地编码关键信息。小波变换可以将视频分解成多个频域组件并显著提高效率,因此我们提出了小波流 VAE (WF-VAE),这是一种利用多级小波变换促进低频能量流入潜在表示的自编码器。此外,我们引入了一种称为因果缓存的方法,该方法在分块推理过程中保持潜在空间的完整性。与最先进的视频 VAE 相比,WF-VAE 在 PSNR 和 LPIPS 指标上都表现出优越的性能,实现了 2 倍更高的吞吐量和 4 倍更低的内存消耗,同时保持了具有竞争力的重建质量。我们的代码和模型可在 https://github.com/PKU-YuanGroup/WF-VAE 获取。