LLM2D

摘要

arXiv:2502.02088v1 交叉类型：cross 摘要：随着网络升级和模型规模扩大，视频基础模型已经取得了显著的进步。然而，由于生成质量不理想，它们依旧难以满足应用要求。为了解决这一问题，本文提出从后训练视角将视频基础模型与人类偏好对齐。因此，我们引入了一种迭代偏好优化策略，通过纳入人类反馈来提升生成视频的质量。具体而言，IPO 利用了一种批评模型，该模型可以像直接偏好优化那样进行成对排序，或者像坎布纳姆-特维斯基优化那样进行点式评分。借助这种方法，IPO 通过偏好反馈信号的指导优化视频基础模型，从而提高生成视频在主题一致性、运动流畅性和审美质量等方面的质量。此外，IPO 将批评模型与多模态大规模语言模型结合起来，使其能够自动分配偏好标签，无需重新训练或重新标注。通过这种方式，IPO 可以在迭代过程中高效地进行多轮偏好优化，而无需繁琐的手动标注。全面的实验表明，提出的IPO可以有效提高预训练模型的生成视频质量，并帮助一个只有2亿参数的模型超越一个拥有5亿参数的模型。此外，IPO 在 VBench 基准上实现了新的最先进技术指标。我们将发布我们的源代码、模型及数据集，以促进未来的研究和应用。