摘要
arXiv:2410.08067v4 宣告类型: replace-cross
摘要:大型语言模型(LLMs)的偏好对齐显著提高了其遵循人类指令和意图的能力。然而,现有的直接对齐算法主要关注相对偏好,经常忽视响应的定性方面,尽管可以获得包括评委模型提供的奖励分数在内的偏好数据,在AI反馈中。试图最大化被选中响应与稍微劣质的拒绝响应之间的隐含奖励差距可能会导致过度拟合和不必要的删除高质量的拒绝响应。忽视奖励分数也促使LLM无缘无故地偏好低质量的被选中响应,无法泛化到数据中稀疏的最优响应。为了克服这些不足,我们的研究引入了基于奖励的LLM策略,能够识别并从数据集中响应质量的整个光谱中学习,以帮助拓展到更优的区域。我们提出了一种有效而简单的数据重新标记方法,基于质量分数条件化偏好对,构建一个增强奖励的数据集。在各种基准和不同模型的实验中,我们的方法始终大幅提升了DPO。通过全面的消融研究,我们证明了我们的方法不仅最大化了偏好数据的效用,还缓解了消除过拟合的问题,展示了其在数据扩展之外的广泛有效性。我们的代码可在https://github.com/shenao-zhang/reward-augmented-preference上获得。