LLM2D
T2V-Turbo-v2:通过数据、奖励和条件引导设计增强视频生成模型的训练后优化
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
作者: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05677v1

摘要

本文重点研究在训练后阶段通过从预训练的文本到视频(T2V)模型中提取高度一致性模型来增强基于扩散的文本到视频(T2V)模型。我们提出的方法,T2V-Turbo-v2,通过将各种监督信号(包括高质量训练数据、奖励模型反馈和条件引导)整合到一致性蒸馏过程中,取得了重大进展。通过全面的消融研究,我们强调了根据特定学习目标定制数据集的重要性,以及从不同奖励模型中学习以提高视觉质量和文本视频对齐的有效性。此外,我们强调了条件引导策略的广阔设计空间,其核心是设计有效的能量函数来增强教师ODE求解器。我们通过从训练数据集中提取运动引导并将其整合到ODE求解器中,展示了这种方法的潜力,展示了其在提高生成视频的运动质量方面的有效性,并通过VBench和T2V-CompBench的改进运动相关指标得到了证明。从经验上讲,我们的T2V-Turbo-v2在VBench上取得了新的最先进的结果,总分为85.13,超过了Gen-3和Kling等专有系统。