LLM2D

摘要

arXiv:2502.09650v1 交叉公告类型：摘要：大型语言模型（LLMs）的对齐往往假设使用更多干净的数据能产生更好的结果，忽略了模型容量与示例难度之间的匹配。我们挑战这一观点，提出一个新的原则：偏好数据在难度上有所不同，过于困难的示例会妨碍对齐，因为它超出了模型的容量。通过系统的实验，我们通过三个关键发现验证了这一原则：（1）偏好示例在难度上有所不同，体现在对齐运行中一致性学习顺序中；（2）过于困难的示例在四个LLMs和两个数据集上显著降低了性能；（3）模型的容量决定了它处理困难示例的阈值，突显了数据选择与模型容量之间的一个关键关系。基于这一原则，我们引入了选择性DPO，该方法过滤掉过于困难的示例。这项简单的调整在AlpacaEval 2基准上的赢率表现相较于DPO基线提高了9-16%，并抑制了一系列具有不同算法调整的DPO变体。这些结果阐明了将数据难度与模型容量对齐的重要性，为改进LLMs对齐策略提供了变革性的视角。代码可在https://github.com/glorgao/SelectiveDPO获得。