摘要
基于人类反馈的标准强化学习 (RLHF) 方法依赖于像 Bradley-Terry 模型这样的参数模型,在捕捉人类偏好中的非传递性和非理性方面存在不足。最近的进展表明,直接处理偏好概率可以更准确地反映人类偏好,从而实现更灵活和准确的语言模型对齐。本文提出了一种基于自博弈的语言模型对齐方法,该方法将问题视为一个常和博弈,旨在识别纳什均衡策略。我们的方法称为自博弈偏好优化 (SPPO),利用迭代策略更新来证明性地逼近纳什均衡。此外,我们提出了一种新的 SPPO 目标,该目标既有理论上的强有力动机,又在实践中简单有效。在我们的实验中,仅使用 UltraFeedback 数据集中的 60k 个提示(没有响应),并且没有进行任何提示增强,通过利用一个仅有 0.4B 个参数的预训练偏好模型 PairRM,SPPO 可以从微调 Mistral-7B-Instruct-v0.2 获得一个模型,该模型在 AlpacaEval 2.0 上实现了 28.53% 的最先进的长度控制胜率,超过了 GPT-4-Turbo。它还在 MT-Bench、Arena-Hard 和 Open LLM Leaderboard 上优于 (迭代) DPO 和 IPO。从更强大的基础模型 Llama-3-8B-Instruct 开始,我们能够实现 38.77% 的长度控制胜率。值得注意的是,SPPO 的出色性能是在没有来自 GPT-4 或其他更强大的语言模型的额外外部监督(例如,响应、偏好等)的情况下实现的。代码可在 https://github.com/uclaml/SPPO 获取。