摘要
arXiv:2412.18597v2 Announce Type: replace-cross
摘要:使用多模态扩散变换器(MM-DiT)架构,Sora类似的视频生成模型已经取得了显著进步。然而,当前的视频生成模型主要关注单指令,难以生成多个顺序指令引导下的连贯场景,这些场景更能够反映现实世界的动态场景。虽然一些开创性的工作已经探索了多指令视频生成,但它们面临着包括严格的数据需求、指令跟随能力弱以及不自然过渡等重大挑战。为了解决这些问题,我们首次提出了一种在MM-DiT架构下无需额外训练的多指令视频生成方法——DiTCtrl。我们提出的核心思想是将多指令视频生成任务视为具有平滑过渡的 temporal 视频编辑任务。为了实现这一目标,我们首先分析了MM-DiT的注意力机制,发现其3D全注意力机制与UNet-like扩散模型中的跨注意力/自我注意力模块的行为类似,这允许在多指令视频生成中通过注意力共享实现基于掩码的精确语义控制。基于我们的精心设计,DiTCtrl生成的视频在多个顺序指令下实现了平滑过渡和一致的对象运动,无需额外训练即可完成。此外,我们还提出了一个名为MPVBench的新基准,专门用于多指令视频生成,以评估多指令生成性能。广泛的实验表明,我们的方法在无需额外训练的情况下实现了最先进的性能。