LLM2D
DLFR-VAE:动态潜空间帧率变分自编码器用于视频生成
DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation
作者: Zhihang Yuan, Siyuan Wang, Rui Xie, Hanling Zhang, Tongcheng Fang, Yuzhang Shang, Shengen Yan, Guohao Dai, Yu Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11897v1

摘要

arXiv:2502.11897v1 Announce Type: cross 摘要:在本文中,我们提出了一种称为动态潜在帧率 VAEM (DLFR-VAE) 的无需训练的范式,它可以利用潜在空间中的自适应时间压缩。现有的视频生成模型通过预训练的 VAEM 应用固定的时间压缩率,但我们观察到真实世界的视频内容表现出显著的时间非均匀性,高动态段包含比静态场景更多的信息。基于这一洞察,DLFR-VAE 根据内容复杂性动态调整潜在帧率。具体来说,DLFR-VAE 包含两项核心创新:(1)动态潜在帧率调度器,将视频划分为时间片段,并基于信息论的内容复杂性自适应确定最优帧率;(2)一种无需训练的适应机制,将预训练的 VAEM 架构转换为可以处理具有可变帧率的特征的动态 VAEM。我们的简单且有效的 DLFR-VAE 可以作为一个即插即用模块工作,无缝地与现有的视频生成模型集成并加速视频生成过程。