LLM2D

摘要

arXiv:2504.08641v1 类型：交叉学科摘要：最近在文本到视频（T2V）扩散模型方面的进展显著提高了生成视频的视觉质量。然而，即使是最近的T2V模型在准确跟随文本描述方面也面临挑战，特别是在提示需要对空间布局或对象轨迹进行精确控制时。最近的研究采用布局指导来帮助T2V模型，在推理时间需要对注意力图进行微调或迭代操作。这显著增加了内存需求，使得难以采用大型T2V模型作为骨干。为解决这一问题，我们提出了Video-MSG，一种基于多模态规划和结构化噪声初始化的无需训练的T2V生成指导方法。Video-MSG 包含三个步骤，在前两个步骤中，Video-MSG 创建了视频素描，即最终视频的精细空间时间计划，指定了背景、前景和对象轨迹，并以草图视频帧的形式呈现。在最后一步，Video-MSG 通过噪声反转和去噪指导下游的T2V扩散模型。值得注意的是，Video-MSG 在推理时间不需要额外的内存来进行微调或注意力操作，从而使其更容易采用大型T2V模型。Video-MSG 在多个T2V生成基准（VideoCrafter2 和 CogVideoX-5B）上展现了增强文本对齐的效果，这些基准包括T2VCompBench 和 VBench。我们提供了关于噪声反转比率、不同的背景生成器、背景物体检测和前景物体分割的全面消融研究。