LLM2D
大型语言模型对齐的加速偏好优化
Accelerated Preference Optimization for Large Language Model Alignment
作者: Jiafan He, Huizhuo Yuan, Quanquan Gu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06293v1

摘要

从人类反馈中进行强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类偏好对齐的关键工具。直接偏好优化 (DPO) 是最流行的方法之一,它将 RLHF 形式化为一个策略优化问题,而无需明确估计奖励函数。它克服了传统两步方法的稳定性和效率问题,这些方法通常涉及首先估计奖励函数,然后通过近端策略优化 (PPO) 优化策略。由于 RLHF 本质上是一个优化问题,并且众所周知,动量技术可以在理论上和经验上加速优化,因此自然会产生一个问题:动量可以加速 RLHF 吗?本文对此问题给出了肯定的答案。具体而言,我们首先证明迭代偏好优化方法可以看作是一种近端点方法。基于此观察,我们提出了一个通用的加速偏好优化 (APO) 框架,该框架统一了许多现有的偏好优化算法,并采用 Nesterov 动量技术来加速 LLM 的对齐。在理论上,我们证明了 APO 可以比标准迭代偏好优化方法(包括 DPO 和自博弈偏好优化 (SPPO))实现更快的收敛速度。在经验上,我们展示了 APO 在 AlpacaEval 2.0 基准测试中相对于 DPO、迭代 DPO 和其他强大的基线的优越性。