LLM2D

摘要

从人类反馈中进行强化学习（RLHF）是使大型语言模型（LLM）更符合人类价值观的一种很有前景的解决方案。由于其成本效益和可扩展性，从其他模型中获取偏好数据的离线偏好优化被广泛采用。然而，离线偏好优化通常会遇到数据收集策略和目标策略之间的分布差距，导致优化效果不佳。本文提出了一种新策略，通过模拟在线学习来缓解这个问题，使用离线偏好数据。我们的加权偏好优化（WPO）方法通过根据当前策略下的概率对偏好对进行重新加权，使离线数据更接近于在线数据。该方法不仅解决了分布差距问题，而且在不产生额外成本的情况下，还增强了优化过程。我们在指令遵循基准上验证了我们的方法，包括 Alpaca Eval 2 和 MT-bench。WPO 在 Alpaca Eval 2 上比直接偏好优化（DPO）的性能高出 5.6%，并且根据 Gemma-2-9b-it，在与 GPT-4-turbo 的长度控制比赛中，取得了 76.7% 的惊人胜率。我们在 https://github.com/wzhouad/WPO 上发布了代码和模型。