LLM2D

摘要

arXiv:2502.02088v2 交叉类型: cross 摘要：视频基础模型在网络升级和模型规模扩大的帮助下已经取得了显著的进步。然而，由于生成质量不足，它们仍然难以满足应用需求。为了解决这一问题，我们在本文中从后训练的角度将视频基础模型与人类偏好对齐。因此，我们引入了一种迭代偏好优化策略（IPO），通过结合人类反馈来提高生成视频的质量。具体来说，IPO 利用一个评判模型，在对决策优化或基点评分等方面，为成对排名提供合理性验证。给定这一方法，IPO 通过偏好反馈的信号优化视频基础模型，这有助于在主题一致性、运动流畅性和美学质量等方面提高生成视频的质量。此外，IPO 将评判模型与多模态大型语言模型结合起来，使其能够自动分配偏好标签，无需重新训练或重新标注。这样，IPO 可以以迭代方式进行多轮偏好优化，而不需繁琐的手动标注。全面的实验表明，提出的 IPO 可以有效地提高预训练模型的视频生成质量，并帮助一个只有2亿参数的模型超越一个有5亿参数的模型。此外，IPO 在 VBench 基准测试中实现了新的最佳性能。我们将发布我们的源代码、模型及数据集，以促进未来的研究和应用。