摘要
从人类反馈中进行强化学习(RLHF)是使大型语言模型(LLM)更符合人类价值观的一种很有前景的解决方案。由于其成本效益和可扩展性,从其他模型中获取偏好数据的离线偏好优化被广泛采用。然而,离线偏好优化通常会遇到数据收集策略和目标策略之间的分布差距,导致优化效果不佳。本文提出了一种新策略,通过模拟在线学习来缓解这个问题,使用离线偏好数据。我们的加权偏好优化(WPO)方法通过根据当前策略下的概率对偏好对进行重新加权,使离线数据更接近于在线数据。该方法不仅解决了分布差距问题,而且在不产生额外成本的情况下,还增强了优化过程。我们在指令遵循基准上验证了我们的方法,包括 Alpaca Eval 2 和 MT-bench。WPO 在 Alpaca Eval 2 上比直接偏好优化(DPO)的性能高出 5.6%,并且根据 Gemma-2-9b-it,在与 GPT-4-turbo 的长度控制比赛中,取得了 76.7% 的惊人胜率。我们在 https://github.com/wzhouad/WPO 上发布了代码和模型。