摘要
arXiv:2502.09650v2 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)的对齐通常假设使用更多干净的数据会带来更好的结果,而忽视了模型容量与示例难度之间的匹配。挑战这一观点,我们提出了一个新的原则:偏好数据的难度各不相同,过于困难的示例会妨碍对齐,因为它们超出了模型的容量。通过系统的实验,我们通过三个关键发现验证了这一原则:(1)偏好示例的难度各不相同,如对齐运行中一致的学习顺序所证实;(2)过于困难的示例在四个LLM和两个数据集中显著降低了性能;(3)模型的容量决定了其处理困难示例的能力阈值,强调了数据选择与模型容量之间的重要关系。基于这一原则,我们介绍了选择性DPO,该方法过滤掉过于困难的示例。这一简单的调整在AlpacaEval 2基准测试中相对于DPO基线提高了9-16%的胜率,并抑制了一系列具有不同算法调整的DPO变体。这些结果揭示了将数据难度与模型容量对齐的重要性,为改善LLMs对齐策略提供了变革性的视角。代码可在 https://github.com/glorgao/SelectiveDPO 获取。