LLM2D

摘要

arXiv:2502.02088v1 宣布类型：交叉摘要：随着网络升级和模型规模的扩大，视频基础模型取得了显著的进展。然而，由于生成质量不令人满意，它们仍然难以满足应用的要求。为了解决这个问题，我们在这篇论文中从后训练的角度提出了一种将视频基础模型与人类偏好相匹配的方法，从而通过引入人类反馈来提高生成视频的质量。具体来说，IPO 利用一个批判模型对成对排名的视频生成进行验证，类似于直接偏好优化中的成对排名验证或卡尼曼-特维斯基优化中的逐点评分验证。因此，IPO 通过偏好反馈信号的引导优化视频基础模型，从而有助于提高生成视频的一致性主题、运动流畅性和审美质量等。此外，IPO 还将批判模型与多模态大语言模型结合，使其能够自动生成偏好标签，无需重新训练或重新标注。这样，IPO 能够在迭代的方式中高效地进行多轮偏好优化，无需繁琐的手动标注。全面的实验表明，提出的IPO 能有效提高预训练模型的视频生成质量，并帮助一个只有2亿参数的模型超越一个5亿参数的模型。此外，IPO 在 VBench 基准上达到了新的最先进性能。我们将发布我们的源代码、模型以及数据集，以促进未来的研究和应用。