摘要
本文重点研究在微调阶段通过从预训练的文本到视频(T2V)模型中提取一个高性能一致性模型来增强基于扩散的 T2V 模型。我们提出的方法 T2V-Turbo-v2 引入了一个重大改进,将各种监督信号(包括高质量训练数据、奖励模型反馈和条件引导)整合到一致性蒸馏过程中。通过全面的消融研究,我们强调了根据特定学习目标定制数据集的重要性,以及从不同的奖励模型中学习以提高视觉质量和文本视频对齐的有效性。此外,我们强调了条件引导策略的广阔设计空间,其核心是设计一个有效的能量函数来增强教师 ODE 求解器。我们通过从训练数据集中提取运动引导并将其整合到 ODE 求解器中来证明这种方法的潜力,展示了它在提高生成视频运动质量方面的有效性,并通过 VBench 和 T2V-CompBench 改善了与运动相关的指标。从经验上看,我们的 T2V-Turbo-v2 在 VBench 上取得了新的最先进的结果,总分达到 85.13,超过了 Gen-3 和 Kling 等专有系统。