LLM2D

摘要

基于人类反馈的标准强化学习 (RLHF) 方法依赖于像 Bradley-Terry 模型这样的参数模型，在捕捉人类偏好中的非传递性和非理性方面存在不足。最近的进展表明，直接处理偏好概率可以更准确地反映人类偏好，从而实现更灵活和准确的语言模型对齐。本文提出了一种基于自博弈的语言模型对齐方法，该方法将问题视为一个常和博弈，旨在识别纳什均衡策略。我们的方法称为自博弈偏好优化 (SPPO)，利用迭代策略更新来证明性地逼近纳什均衡。此外，我们提出了一种新的 SPPO 目标，该目标既有理论上的强有力动机，又在实践中简单有效。在我们的实验中，仅使用 UltraFeedback 数据集中的 60k 个提示（没有响应），并且没有进行任何提示增强，通过利用一个仅有 0.4B 个参数的预训练偏好模型 PairRM，SPPO 可以从微调 Mistral-7B-Instruct-v0.2 获得一个模型，该模型在 AlpacaEval 2.0 上实现了 28.53% 的最先进的长度控制胜率，超过了 GPT-4-Turbo。它还在 MT-Bench、Arena-Hard 和 Open LLM Leaderboard 上优于 (迭代) DPO 和 IPO。从更强大的基础模型 Llama-3-8B-Instruct 开始，我们能够实现 38.77% 的长度控制胜率。值得注意的是，SPPO 的出色性能是在没有来自 GPT-4 或其他更强大的语言模型的额外外部监督（例如，响应、偏好等）的情况下实现的。代码可在 https://github.com/uclaml/SPPO 获取。