LLM2D

摘要

arXiv:2502.11897v2 宣告类型: replace-cross 摘要: 在本文中，我们提出了动态潜在帧率VAE (DLFR-VAE)，这是一种无需训练的范例，可以在潜在空间中利用适应性时间压缩。现有的视频生成模型通过预训练的VAE应用固定的压缩率，但我们发现现实世界的视频内容表现出显著的时间非均匀性，高运动段包含比静止场景更多的信息。基于这一认识，DLFR-VAE 根据内容复杂性动态调整潜在帧率。具体来说，DLFR-VAE 包含两项核心创新：(1) 动态潜在帧率调度器，将视频划分为时间片段，并基于信息理论的内容复杂性自适应地确定最优帧率；(2) 一种无需训练的自适应机制，可以将预训练的VAE架构转换为可以处理可变帧率特征的动态VAE。我们的简单而有效的DLFR-VAE 可作为插即拔模块运行，无缝集成到现有的视频生成模型中，并加速视频生成过程。