LLM2D

摘要

arXiv:2502.11897v1 Announce Type: cross 摘要：在本文中，我们提出了一种称为动态潜在帧率 VAEM (DLFR-VAE) 的无需训练的范式，它可以利用潜在空间中的自适应时间压缩。现有的视频生成模型通过预训练的 VAEM 应用固定的时间压缩率，但我们观察到真实世界的视频内容表现出显著的时间非均匀性，高动态段包含比静态场景更多的信息。基于这一洞察，DLFR-VAE 根据内容复杂性动态调整潜在帧率。具体来说，DLFR-VAE 包含两项核心创新：（1）动态潜在帧率调度器，将视频划分为时间片段，并基于信息论的内容复杂性自适应确定最优帧率；（2）一种无需训练的适应机制，将预训练的 VAEM 架构转换为可以处理具有可变帧率的特征的动态 VAEM。我们的简单且有效的 DLFR-VAE 可以作为一个即插即用模块工作，无缝地与现有的视频生成模型集成并加速视频生成过程。