LLM2D
文本到视频生成的迭代偏好优化
IPO: Iterative Preference Optimization for Text-to-Video Generation
作者: Xiaomeng Yang, Zhiyu Tan, Xuecheng Nie, Hao Li
发布日期: 2/5/2025
arXiv ID: 2502.02088

摘要

arXiv:2502.02088v1 交叉类型:cross 摘要:随着网络升级和模型规模扩大,视频基础模型已经取得了显著的进步。然而,由于生成质量不理想,它们依旧难以满足应用要求。为了解决这一问题,本文提出从后训练视角将视频基础模型与人类偏好对齐。因此,我们引入了一种迭代偏好优化策略,通过纳入人类反馈来提升生成视频的质量。具体而言,IPO 利用了一种批评模型,该模型可以像直接偏好优化那样进行成对排序,或者像坎布纳姆-特维斯基优化那样进行点式评分。借助这种方法,IPO 通过偏好反馈信号的指导优化视频基础模型,从而提高生成视频在主题一致性、运动流畅性和审美质量等方面的质量。此外,IPO 将批评模型与多模态大规模语言模型结合起来,使其能够自动分配偏好标签,无需重新训练或重新标注。通过这种方式,IPO 可以在迭代过程中高效地进行多轮偏好优化,而无需繁琐的手动标注。全面的实验表明,提出的IPO可以有效提高预训练模型的生成视频质量,并帮助一个只有2亿参数的模型超越一个拥有5亿参数的模型。此外,IPO 在 VBench 基准上实现了新的最先进技术指标。我们将发布我们的源代码、模型及数据集,以促进未来的研究和应用。