LLM2D
通过丰富的偏好优化微调扩散生成模型
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization
作者: Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.11720v2

摘要

arXiv:2503.11720v2 通知类型: replace-cross 摘要:我们介绍了丰富偏好优化(RPO),这是一种利用丰富反馈信号来改进文本到图像扩散模型微调过程中偏好对策展的新管道。传统的 方法,如扩散-DPO,通常仅依赖于奖励模型标签,这种方法可能存在不透明性,对偏好的背后原因提供有限的见解,并且容易出现 奖励作弊或过拟合等问题。相比之下,我们的方法从生成合成图像的详细评价开始,以提取可靠且可操作的图像编辑指示。通过实 施这些指示,我们创建了改进的图像,从而生成合成且信息丰富的偏好对,这些偏好对作为增强的调参数据集使用。我们展示了我们的新管道及其生成的数据集在微调最先进的扩散模型中的有效性。