LLM2D

摘要

arXiv:2502.01667v1 类型: cross 摘要: 直接偏好优化(DPO)在使扩散模型与人类偏好对齐方面取得了成功。先前的方法通常假设最终生成物和中间步骤中的嘈杂样本之间的一致偏好标签，并直接将DPO应用于这些嘈杂样本进行微调。然而，我们从理论上识别出这种假设存在内在问题，并且这些问题影响了偏好对齐的有效性。我们首先从两个视角证明了这些内在问题：梯度方向和偏好顺序，然后提出了一种适应性偏好优化(TailorPO)框架，该框架以一些理论洞察为基础，使扩散模型能够与人类偏好对齐。我们的方法直接根据中间嘈杂样本的步进奖励对其进行排序，并通过一个简单而有效的设计有效解决了梯度方向问题。此外，我们还将扩散模型的梯度引导纳入偏好对齐中，以进一步增强优化效果。实验结果表明，我们的方法显著提高了模型生成美观且符合人类偏好的图像的能力。