摘要
arXiv:2405.13637v5 通告类型: 替换-交叉
摘要: 直接偏好优化 (DPO) 已被提议作为一种有效的替代强化学习从人类反馈 (RLHF) 方案的方法。在本文中,我们提出了基于课程学习的 DPO 新颖且增强版本,用于文本到图像生成。我们的方法分为两个训练阶段。首先,通过使用奖励模型获得每条提示生成的示例的排名。然后,采样并提供越来越困难的示例对给文本到图像生成(扩散或一致性)模型。排名中相差较大的生成样本被视为形成简单的示例对,而排名中临近的示例形成困难示例对。换句话说,我们使用样本之间的排名差异作为难度的衡量标准。根据难度水平将采样的示例对分成批次,并逐步用于训练生成模型。我们提出的方法 Curriculum DPO 在九个基准测试上与最先进的微调方法进行了比较,在文本对齐、美学和人类偏好方面均优于竞争对手的方法。我们的代码可在 https://github.com/CroitoruAlin/Curriculum-DPO 获取。