LLM2D

摘要

本文重点研究在训练后阶段通过从预训练的文本到视频（T2V）模型中提取高度一致性模型来增强基于扩散的文本到视频（T2V）模型。我们提出的方法，T2V-Turbo-v2，通过将各种监督信号（包括高质量训练数据、奖励模型反馈和条件引导）整合到一致性蒸馏过程中，取得了重大进展。通过全面的消融研究，我们强调了根据特定学习目标定制数据集的重要性，以及从不同奖励模型中学习以提高视觉质量和文本视频对齐的有效性。此外，我们强调了条件引导策略的广阔设计空间，其核心是设计有效的能量函数来增强教师ODE求解器。我们通过从训练数据集中提取运动引导并将其整合到ODE求解器中，展示了这种方法的潜力，展示了其在提高生成视频的运动质量方面的有效性，并通过VBench和T2V-CompBench的改进运动相关指标得到了证明。从经验上讲，我们的T2V-Turbo-v2在VBench上取得了新的最先进的结果，总分为85.13，超过了Gen-3和Kling等专有系统。