LLM2D

摘要

arXiv:2504.07856v2 宣告类型: 替换摘要: 将大型语言模型与人类偏好对齐对于其安全部署至关重要。虽然直接偏好优化 (DPO) 提供了一种基于人类反馈的强化学习的有效替代方案，但传统的 DPO 方法仍受限于它们对单一偏好对的依赖。最近的一些工作，如 Curriculum-DPO，通过基于两两可分辨性 (PD) 的一维难度课程整合了多个偏好对，但忽视了输入提示本身的复杂性。为了解决这一问题，我们提出了 2D-Curri-DPO，这是一种利用二维课程框架的新颖方法，该框架同时建模提示复杂性 (PC) 和两两可分辨性 (PD)。该框架引入了双重难度度量来量化提示语义复杂性和响应偏好清晰度，定义了一个课程策略空间，其中包含多个可选策略以适应任务，以及通过引入基于 KL 散度的自适应机制来动态更新参考模型，以增强训练稳定性。全面的实验表明，2D-Curri-DPO 在多个基准测试中（包括 MT-Bench、Vicuna Bench 和 WizardLM）显著优于标准 DPO 和先前的课程方法。我们的方法在具有挑战性的测试集，如 UltraFeedback 上达到了最先进的性能。消除研究验证了 2D 结构和自适应机制的利益，而分析提供了策略选择的指导。这些发现表明，有效的对齐需要同时建模提示复杂性和两两可分辨性，确立了自适应、多维课程学习作为一种强大且可解释的新范式，用于基于偏好的语言模型优化。