摘要
arXiv:2503.03708v3 通知类型: 交叉替换
摘要: 目前的视频分词器通常使用传统的变分自编码器(VAE)架构进行视频压缩和重构。然而,为了实现良好的性能,其训练过程往往依赖于超越基本重构损失和KL正则化的复杂多阶段训练技巧。在这其中,最具挑战性的部分就是在最终阶段使用附加生成对抗网络(GANs)进行对抗训练的精确调优,这可能会妨碍稳定的收敛。与GANs相比,扩散模型提供了更稳定的训练过程,并能生成更高的质量结果。受这些优势的启发,我们提出了一种新颖的基于条件因果扩散的视频分词器CDT,它用条件因果扩散模型替代了基于GAN的解码器。编码器将时空信息压缩为紧凑的潜在变量,而解码器则通过反向扩散过程在这些潜在变量的条件下重构视频。在推理过程中,我们引入了特征缓存机制以生成任意长度的视频同时保持时间连贯性,并采用采样加速技术以提高效率。仅使用基本的MSE扩散损失作为重构损失,以及从零开始训练的KL项和LPIPS感知损失,广泛的实验证明,CDT仅通过单步采样就能在视频重构任务中实现最先进的性能。即使CDT的简化版本(3倍推理速度提升)也能与顶级基线相媲美。此外,使用CDT训练的潜在视频生成模型也表现出优秀的效果。相关源代码和预训练权重可在https://github.com/ali-vilab/CDT获取。