摘要
arXiv:2502.11897v1 Announce Type: cross
摘要:在本文中,我们提出了一种称为动态潜在帧率 VAEM (DLFR-VAE) 的无需训练的范式,它可以利用潜在空间中的自适应时间压缩。现有的视频生成模型通过预训练的 VAEM 应用固定的时间压缩率,但我们观察到真实世界的视频内容表现出显著的时间非均匀性,高动态段包含比静态场景更多的信息。基于这一洞察,DLFR-VAE 根据内容复杂性动态调整潜在帧率。具体来说,DLFR-VAE 包含两项核心创新:(1)动态潜在帧率调度器,将视频划分为时间片段,并基于信息论的内容复杂性自适应确定最优帧率;(2)一种无需训练的适应机制,将预训练的 VAEM 架构转换为可以处理具有可变帧率的特征的动态 VAEM。我们的简单且有效的 DLFR-VAE 可以作为一个即插即用模块工作,无缝地与现有的视频生成模型集成并加速视频生成过程。