LLM2D

摘要

从人类反馈中进行强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类偏好对齐的关键工具。直接偏好优化 (DPO) 是最流行的方法之一，它将 RLHF 形式化为一个策略优化问题，而无需明确估计奖励函数。它克服了传统两步方法的稳定性和效率问题，这些方法通常涉及首先估计奖励函数，然后通过近端策略优化 (PPO) 优化策略。由于 RLHF 本质上是一个优化问题，并且众所周知，动量技术可以在理论上和经验上加速优化，因此自然会产生一个问题：动量可以加速 RLHF 吗？本文对此问题给出了肯定的答案。具体而言，我们首先证明迭代偏好优化方法可以看作是一种近端点方法。基于此观察，我们提出了一个通用的加速偏好优化 (APO) 框架，该框架统一了许多现有的偏好优化算法，并采用 Nesterov 动量技术来加速 LLM 的对齐。在理论上，我们证明了 APO 可以比标准迭代偏好优化方法（包括 DPO 和自博弈偏好优化 (SPPO)）实现更快的收敛速度。在经验上，我们展示了 APO 在 AlpacaEval 2.0 基准测试中相对于 DPO、迭代 DPO 和其他强大的基线的优越性。