摘要
arXiv:2410.08067v5 宣告类型: replace-cross
摘要: 在大规模语言模型(LLMs)中引入偏好对齐显著提高了它们遵循人类指令和意图的能力。然而,现有的直接对齐算法主要关注相对偏好,往往忽视了响应的定性方面,尽管这些算法在人工智能反馈期间可以访问包含评委模型奖励得分的偏好数据。为了最大化所选响应和略微低劣的被拒响应之间的隐含奖励差距,可能会导致过拟合并不必要的忽视高质量的被拒响应。忽视奖励得分也会促使LLM不分青红皂白地偏好低质量的所选响应,并且无法泛化到数据稀少的理想响应。为克服这些缺点,我们的研究引入了基于奖励的LLM策略,能够辨识并从数据集中响应质量的整个谱系中学习,帮助推广到更理想的区域。我们提出了一种有效且简单的数据重新标签方法,基于质量得分条件化偏好对,构建奖励增强数据集。在各种基准和不同模型的实验中表明,我们的方法在显著提升DPO方面表现出色。通过全面的消融研究,我们证明我们的方法不仅最大化了偏好数据的效用,还缓解了忽视的问题,展示了其广泛的有效性,远不止简单的数据扩展。我们的代码可在 https://github.com/shenao-zhang/reward-augmented-preference 获取。