LLM2D

摘要

arXiv:2502.02690v1 Announce Type: cross 摘要：尽管在生成高质量且一致的视频方面取得了最近的进展，可控视频生成仍然是一项重大挑战。现有的大部分方法在控制视频生成时将视频视为整体，忽略了复杂的细粒度空间时间关系，这限制了控制的精确性和效率。在本文中，我们提出了一种可控视频生成对抗网络（CoVoGAN），以分离视频概念，从而实现对各个概念的高效且独立的控制。具体而言，根据最小变化原则，我们首先分离静态和动态潜在变量。然后利用足够的变化性质实现动态潜在变量的组件级可识别性，从而实现对运动和身份的独立控制。为了建立理论基础，我们提供了一种严格的分析来证明我们方法的可识别性。基于这些理论洞察，我们设计了时间转换模块以分离潜在动态。为了实施最小变化原则和足够的变化性质，我们减少了潜在动态变量的维度并施加了时间条件独立性。为了验证我们的方法，我们将该模块作为GAN的插件进行集成。在各种视频生成基准上的广泛定性和定量实验表明，我们的方法在各种现实场景中显著提高了生成质量和可控性。