LLM2D

摘要

故事视频生成 (SVG) 最近出现，其任务是创建长的、多动作的、多场景的视频，这些视频一致地展现输入文本脚本中描述的故事。SVG 在媒体和娱乐的多样化内容创作方面具有巨大潜力；然而，它也带来了巨大的挑战：（1）物体必须展现一系列细粒度、复杂的动作；（2）多个物体需要在各个场景中始终如一地出现；（3）主体可能需要多个动作，并在单个场景内实现无缝过渡。为了应对这些挑战，我们提出了 DreamRunner，这是一种新颖的故事到视频生成方法：首先，我们使用大型语言模型 (LLM) 来构建输入脚本，以促进粗粒度的场景规划以及细粒度的物体级布局和运动规划。接下来，DreamRunner 提出了一种检索增强的测试时自适应方法，以捕获每个场景中物体的目标运动先验，支持基于检索视频的多样化运动定制，从而促进生成具有复杂脚本动作的新视频。最后，我们提出了一种新颖的基于时空区域的 3D 注意力和先验注入模块 SR3AI，用于细粒度的物体运动绑定和逐帧语义控制。我们将 DreamRunner 与各种 SVG 基线进行了比较，证明了其在角色一致性、文本对齐和平滑过渡方面取得了最先进的性能。此外，DreamRunner 在组合文本到视频生成方面表现出强大的细粒度条件遵循能力，在 T2V-ComBench 上显著优于基线。最后，我们通过定性示例验证了 DreamRunner 生成多物体交互的强大能力。