LLM2D
可控视频生成与可证明的解耦
Controllable Video Generation with Provable Disentanglement
作者: Yifan Shen, Peiyuan Zhu, Zijian Li, Shaoan Xie, Zeyu Tang, Namrata Deka, Zongfang Liu, Guangyi Chen, Kun Zhang
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02690v1

摘要

arXiv:2502.02690v1 Announce Type: cross 摘要:尽管在生成高质量且一致的视频方面取得了最近的进展,可控视频生成仍然是一项重大挑战。现有的大部分方法在控制视频生成时将视频视为整体,忽略了复杂的细粒度空间时间关系,这限制了控制的精确性和效率。在本文中,我们提出了一种可控视频生成对抗网络(CoVoGAN),以分离视频概念,从而实现对各个概念的高效且独立的控制。具体而言,根据最小变化原则,我们首先分离静态和动态潜在变量。然后利用足够的变化性质实现动态潜在变量的组件级可识别性,从而实现对运动和身份的独立控制。为了建立理论基础,我们提供了一种严格的分析来证明我们方法的可识别性。基于这些理论洞察,我们设计了时间转换模块以分离潜在动态。为了实施最小变化原则和足够的变化性质,我们减少了潜在动态变量的维度并施加了时间条件独立性。为了验证我们的方法,我们将该模块作为GAN的插件进行集成。在各种视频生成基准上的广泛定性和定量实验表明,我们的方法在各种现实场景中显著提高了生成质量和可控性。