LLM2D
无需训练的引导:通过多模态规划和结构化噪声初始化在文本到视频生成中的应用
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
作者: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08641v1

摘要

arXiv:2504.08641v1 类型:交叉学科 摘要:最近在文本到视频(T2V)扩散模型方面的进展显著提高了生成视频的视觉质量。然而,即使是最近的T2V模型在准确跟随文本描述方面也面临挑战,特别是在提示需要对空间布局或对象轨迹进行精确控制时。最近的研究采用布局指导来帮助T2V模型,在推理时间需要对注意力图进行微调或迭代操作。这显著增加了内存需求,使得难以采用大型T2V模型作为骨干。为解决这一问题,我们提出了Video-MSG,一种基于多模态规划和结构化噪声初始化的无需训练的T2V生成指导方法。Video-MSG 包含三个步骤,在前两个步骤中,Video-MSG 创建了视频素描,即最终视频的精细空间时间计划,指定了背景、前景和对象轨迹,并以草图视频帧的形式呈现。在最后一步,Video-MSG 通过噪声反转和去噪指导下游的T2V扩散模型。值得注意的是,Video-MSG 在推理时间不需要额外的内存来进行微调或注意力操作,从而使其更容易采用大型T2V模型。Video-MSG 在多个T2V生成基准(VideoCrafter2 和 CogVideoX-5B)上展现了增强文本对齐的效果,这些基准包括T2VCompBench 和 VBench。我们提供了关于噪声反转比率、不同的背景生成器、背景物体检测和前景物体分割的全面消融研究。