摘要
arXiv:2504.07856v1 宣告类型: 新颖
摘要: 将大型语言模型与人类偏好对齐对于其安全部署至关重要。虽然直接偏好优化(DPO)为从人类反馈中进行强化学习提供了一种高效替代方案,但传统的DPO方法受限于其对单一偏好配对的依赖。近期的工作如Curriculum-DPO通过基于配对区分性(PD)的一维难度课程整合了多个配对,但忽略了输入提示本身的复杂性。为解决这一问题,我们提出了一种名为2D-Curri-DPO的新框架,该框架采用二维课程来联合建模提示复杂性(PC)和配对区分性(PD)。该框架引入了双重难度度量来量化提示语义复杂性和响应偏好清晰度,定义了一种课程策略空间,涵盖了多种可选策略以适应任务,还整合了基于KL散度的自适应机制,以动态更新参考模型从而增强训练稳定性。全面的实验结果表明,2D-Curri-DPO在MT-Bench、Vicuna Bench和WizardLM等多个基准测试中显著优于标准DPO和先前的课程学习方法。我们的方法在具有挑战性的测试集UltraFeedback上实现了最先进的性能。消融研究证实了二维结构和自适应机制的优点,而分析为策略选择提供了指导。这些发现表明,有效的对齐需要同时建模提示复杂性和配对区分性,确立了自适应、多维课程学习作为一种强大且具有可解释性的新范式,用于基于偏好的语言模型优化。