LLM2D

摘要

arXiv:2503.11720v2 通知类型: replace-cross 摘要：我们介绍了丰富偏好优化（RPO），这是一种利用丰富反馈信号来改进文本到图像扩散模型微调过程中偏好对策展的新管道。传统的方法，如扩散-DPO，通常仅依赖于奖励模型标签，这种方法可能存在不透明性，对偏好的背后原因提供有限的见解，并且容易出现奖励作弊或过拟合等问题。相比之下，我们的方法从生成合成图像的详细评价开始，以提取可靠且可操作的图像编辑指示。通过实施这些指示，我们创建了改进的图像，从而生成合成且信息丰富的偏好对，这些偏好对作为增强的调参数据集使用。我们展示了我们的新管道及其生成的数据集在微调最先进的扩散模型中的有效性。