摘要
arXiv:2502.01667v1 交叉类型公告:
摘要:直接偏好优化(DPO)已经在使扩散模型与人类偏好保持一致方面显示出成功。先前的方法通常假设最终生成和中间步骤中的嘈杂样本之间存在一致的偏好标签,并直接将DPO应用于这些嘈杂样本以进行微调。然而,我们从理论上识定了这种假设中存在的固有问题及其对偏好对齐有效性的影响。首先,我们从两个角度展示了这些固有问题:梯度方向和偏好顺序,然后提出了一种定制偏好优化(TailorPO)框架,以在一些理论洞察的基础上使扩散模型与人类偏好保持一致。我们的方法直接基于其步阶奖励对中间的嘈杂样本进行排序,并通过一种简单而有效的设计有效解决了梯度方向问题。此外,我们将扩散模型的梯度指导纳入偏好对齐中,进一步提高优化的有效性。实验结果表明,我们的方法显著提高了模型生成具有审美吸引力且符合人类偏好的图像的能力。