LLM2D
视频修复:通过错位评估和局部细化改进文本到视频的生成
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
作者: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.15115v1

摘要

近期文本到视频(T2V)扩散模型在各个领域展现了令人印象深刻的生成能力。然而,这些模型生成的视频往往与文本提示存在错位,尤其是在提示描述包含多个对象和属性的复杂场景时。为了解决这个问题,我们引入了VideoRepair,这是一个新颖的、与模型无关、无需训练的视频细化框架,它可以自动识别细粒度的文本-视频错位并生成明确的时空和文本反馈,使T2V扩散模型能够执行有针对性的局部细化。VideoRepair包含四个阶段:(1)视频评估:我们通过生成细粒度的评估问题并使用大型语言模型(MLLM)回答这些问题来检测错位。(2)细化规划:我们识别准确生成的物体,然后创建局部提示来细化视频中的其他区域。(3)区域分解:我们使用组合接地模块分割正确生成的区域。(4)局部细化:我们在保留正确区域的同时,通过调整错位区域来重新生成视频。在两个流行的视频生成基准测试(EvalCrafter和T2V-CompBench)上,VideoRepair在各种文本-视频对齐指标上显著优于最新的基线。我们对VideoRepair的组件和定性示例进行了全面的分析。