LLM2D
DreamRunner:基于检索增强运动自适应的细粒度故事视频生成
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation
作者: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16657v1

摘要

故事视频生成 (SVG) 最近出现,其任务是创建长的、多动作的、多场景的视频,这些视频一致地展现输入文本脚本中描述的故事。SVG 在媒体和娱乐的多样化内容创作方面具有巨大潜力;然而,它也带来了巨大的挑战:(1)物体必须展现一系列细粒度、复杂的动作;(2)多个物体需要在各个场景中始终如一地出现;(3)主体可能需要多个动作,并在单个场景内实现无缝过渡。为了应对这些挑战,我们提出了 DreamRunner,这是一种新颖的故事到视频生成方法:首先,我们使用大型语言模型 (LLM) 来构建输入脚本,以促进粗粒度的场景规划以及细粒度的物体级布局和运动规划。接下来,DreamRunner 提出了一种检索增强的测试时自适应方法,以捕获每个场景中物体的目标运动先验,支持基于检索视频的多样化运动定制,从而促进生成具有复杂脚本动作的新视频。最后,我们提出了一种新颖的基于时空区域的 3D 注意力和先验注入模块 SR3AI,用于细粒度的物体运动绑定和逐帧语义控制。我们将 DreamRunner 与各种 SVG 基线进行了比较,证明了其在角色一致性、文本对齐和平滑过渡方面取得了最先进的性能。此外,DreamRunner 在组合文本到视频生成方面表现出强大的细粒度条件遵循能力,在 T2V-ComBench 上显著优于基线。最后,我们通过定性示例验证了 DreamRunner 生成多物体交互的强大能力。