LLM2D

摘要

arXiv:2503.11720v3 通告类型: 替换-交叉摘要: 我们引入了富偏好优化（RPO），这是一种新颖的流水线，利用丰富的反馈信号来改进文本到图像扩散模型微调中的偏好对的管理。传统的方法，如扩散-DPO，通常仅依赖于奖励模型标注，这可能导致结果不透明、限制了对偏好的合理解释，并可能面临奖励作弊或过拟合等问题。相比之下，我们的方法始于生成合成图像的详细批评，以提取可靠且可操作的图像编辑指令。通过实施这些指令，我们创建了精炼的图像，从而产生具有信息性的偏好对，这些偏好对作为优化的微调数据集。我们展示了我们流水线及其生成的数据集在微调最先进的扩散模型方面的有效性。