LLM2D

摘要

arXiv:2411.17459v3 宣告类型: replace-cross 摘要：视频变分自编码器（VAE）将视频编码到低维潜空间中，成为大多数潜视频扩散模型（LVDMs）的关键组成部分，以降低模型训练成本。然而，随着生成视频的分辨率和时长增加，视频VAE的编码成本成为训练LVDMs的限制性瓶颈。另外，大多数LVDMs采用的块级推理方法在处理长时视频时会导致潜空间的不连续性。解决计算瓶颈的关键在于将视频分解为不同的组件，并有效地编码关键信息。小波变换可以将视频分解为多个频域组件，并显著提高效率，因此我们提出了采用多级小波变换的Wavelet Flow VAE（WF-VAE），这是一种利用多级小波变换促进低频能量流入选潜表示的自编码器。此外，我们引入了一种称为因果缓存的方法，该方法在块级推理过程中保持潜空间的完整性。与其他最先进的视频VAE相比，WF-VAE在PSNR和LPIPS指标上表现更优，实现了2倍更高的吞吐量和4倍更低的内存消耗，同时保持了竞争力的重构质量。我们的代码和模型可在https://github.com/PKU-YuanGroup/WF-VAE 上获取。