LLM2D
DLFR-VAE:动态潜空间帧率VAE视频生成
DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation
作者: Zhihang Yuan, Siyuan Wang, Rui Xie, Hanling Zhang, Tongcheng Fang, Yuzhang Shang, Shengen Yan, Guohao Dai, Yu Wang
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2502.11897v2

摘要

arXiv:2502.11897v2 宣告类型: replace-cross 摘要: 在本文中,我们提出了动态潜在帧率VAE (DLFR-VAE),这是一种无需训练的范例,可以在潜在空间中利用适应性时间压缩。现有的视频生成模型通过预训练的VAE应用固定的压缩率,但我们发现现实世界的视频内容表现出显著的时间非均匀性,高运动段包含比静止场景更多的信息。基于这一认识,DLFR-VAE 根据内容复杂性动态调整潜在帧率。具体来说,DLFR-VAE 包含两项核心创新:(1) 动态潜在帧率调度器,将视频划分为时间片段,并基于信息理论的内容复杂性自适应地确定最优帧率;(2) 一种无需训练的自适应机制,可以将预训练的VAE架构转换为可以处理可变帧率特征的动态VAE。我们的简单而有效的DLFR-VAE 可作为插即拔模块运行,无缝集成到现有的视频生成模型中,并加速视频生成过程。