LLM2D

摘要

近期文本到视频（T2V）扩散模型在各个领域展现了令人印象深刻的生成能力。然而，这些模型生成的视频往往与文本提示存在错位，尤其是在提示描述包含多个对象和属性的复杂场景时。为了解决这个问题，我们引入了VideoRepair，这是一个新颖的、与模型无关、无需训练的视频细化框架，它可以自动识别细粒度的文本-视频错位并生成明确的时空和文本反馈，使T2V扩散模型能够执行有针对性的局部细化。VideoRepair包含四个阶段：（1）视频评估：我们通过生成细粒度的评估问题并使用大型语言模型（MLLM）回答这些问题来检测错位。（2）细化规划：我们识别准确生成的物体，然后创建局部提示来细化视频中的其他区域。（3）区域分解：我们使用组合接地模块分割正确生成的区域。（4）局部细化：我们在保留正确区域的同时，通过调整错位区域来重新生成视频。在两个流行的视频生成基准测试（EvalCrafter和T2V-CompBench）上，VideoRepair在各种文本-视频对齐指标上显著优于最新的基线。我们对VideoRepair的组件和定性示例进行了全面的分析。