LLM2D

摘要

大型语言模型 (LLM) 中的偏好对齐显著提高了其遵守人类指令和意图的能力。然而，现有的直接对齐算法主要关注相对偏好，往往忽略了响应的质性方面。努力最大化所选响应和略逊一筹的被拒绝响应之间的隐含奖励差距可能导致过拟合，并导致不必要地遗忘高质量的被拒绝响应。对奖励分数的不知情也驱动 LLM 不加区分地偏好低质量的所选响应，并且无法泛化到具有最高奖励（在数据中稀疏）的响应。为了克服这些缺点，我们的研究引入了奖励条件的 LLM 策略，这些策略能够识别并学习数据集中响应质量的整个范围，从而帮助推断到更优区域。我们提出了一种有效且简单的数据重新标记方法，该方法根据质量分数对偏好对进行条件化，以构建奖励增强的数据集。该数据集易于与现有的直接对齐算法集成，并适用于任何偏好数据集。在包括 AlpacaEval、MT-Bench 和 Arena-Hard-Auto 在内的指令遵循基准测试中的实验结果表明，我们的方法在各种模型上始终如一地大幅提高了 DPO 的性能。此外，我们的方法提高了各种学术基准测试的平均准确率。当将我们的方法应用于策略内数据时，生成的 DPO 模型在 AlpacaEval 上取得了最先进的结果。通过消融研究，我们证明了我们的方法不仅最大限度地利用了偏好数据，而且还减轻了遗忘问题，证明了其超越单纯数据集扩展的广泛有效性。我们的代码可在 https://github.com/shenao-zhang/reward-augmented-preference 获取。