摘要
arXiv:2403.14773v2 宣告类型: replace-cross
摘要: 文本到视频扩散模型能够根据文本指令生成高质量的视频,使得创建多样且个性化的内容变得容易。然而,现有的方法主要集中在高质量短视频(通常是16或24帧)的生成上,当简单地扩展到长视频合成时,往往会导致生硬的剪辑。为了克服这些限制,我们引入了StreamingT2V,这是一种用于生成80、240、600、1200帧或更多帧的平滑过渡长视频的自回归方法。关键组件包括:(i) 一个称为条件注意模块(CAM)的短期记忆块,该模块通过注意机制根据上一小段提取的特征来条件当前生成,从而导致一致的小段过渡;(ii) 一个称为外观保护模块的长期记忆块,该模块从第一段视频提取高层次的场景和物体特征以防止模型忘记初始场景;(iii) 一种随机混合方法,使视频增强器能够在无矛盾的小段情况下自回归地应用于无限长的视频。实验显示,StreamingT2V 生成了大量运动。相比之下,所有竞争的图像到视频方法在自回归应用时都容易导致视频停滞。因此,我们利用 StreamingT2V 提出了一种高质量无缝文本到长视频生成器,该生成器在一致性与运动方面优于竞争对手。我们的代码将在以下地址提供:https://github.com/Picsart-AI-Research/StreamingT2V