摘要
arXiv:2502.09650v1 交叉公告类型:
摘要:大型语言模型(LLMs)的对齐往往假设使用更多干净的数据能产生更好的结果,忽略了模型容量与示例难度之间的匹配。我们挑战这一观点,提出一个新的原则:偏好数据在难度上有所不同,过于困难的示例会妨碍对齐,因为它超出了模型的容量。通过系统的实验,我们通过三个关键发现验证了这一原则:(1)偏好示例在难度上有所不同,体现在对齐运行中一致性学习顺序中;(2)过于困难的示例在四个LLMs和两个数据集上显著降低了性能;(3)模型的容量决定了它处理困难示例的阈值,突显了数据选择与模型容量之间的一个关键关系。基于这一原则,我们引入了选择性DPO,该方法过滤掉过于困难的示例。这项简单的调整在AlpacaEval 2基准上的赢率表现相较于DPO基线提高了9-16%,并抑制了一系列具有不同算法调整的DPO变体。这些结果阐明了将数据难度与模型容量对齐的重要性,为改进LLMs对齐策略提供了变革性的视角。代码可在https://github.com/glorgao/SelectiveDPO获得。