LLM2D
DPO 碰上 PPO:强化 tokenize 优化在 RLHF 中的应用
DPO Meets PPO: Reinforced Token Optimization for RLHF
作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2404.18922v3

摘要

arXiv:2404.18922v3 宣布类型: replace-cross 摘要:在经典的从人类反馈强化学习(RLHF)框架中,使用了紧密策略优化(PPO)来学习稀疏的、基于句子的奖励——这是传统深度强化学习中一个极具挑战性的场景。尽管PPO在大型语言模型的对齐方面取得了巨大的成功,其开源实现仍然远远不够优化。为了解决这些问题,我们提出了一种框架,将RLHF问题建模为马尔可夫决策过程(MDP),从而能够捕捉到粒度更细的、基于令牌的信息。在这一框架下,我们引入了一种算法,名为强化令牌优化(RTO),它从偏好数据中学习基于令牌的奖励函数,并基于此学习到的令牌级别的奖励信号进行策略优化。理论上,RTO被证明有能力高效地找到近似最优策略。在其实现方面,RTO创新地将直接偏好优化(DPO)和PPO结合起来。DPO最初是从稀疏句子奖励推导而来的,意外地为我们提供了基于令牌的响应质量表征,这一表征能够无缝地融入我们后续的PPO训练阶段。广泛的实验表明,RTO在AlpacaEval 2基准测试中比PPO及其他直接偏好学习算法性能更好,在Arena-Hard中则超出PPO 4.1分。我们的代码和模型可以在 \href{https://github.com/zkshan2002/RTO}{https://github.com/zkshan2002/RTO} 获取。