LLM2D

摘要

arXiv:2404.18922v3 宣布类型: replace-cross 摘要：在经典的从人类反馈强化学习（RLHF）框架中，使用了紧密策略优化（PPO）来学习稀疏的、基于句子的奖励——这是传统深度强化学习中一个极具挑战性的场景。尽管PPO在大型语言模型的对齐方面取得了巨大的成功，其开源实现仍然远远不够优化。为了解决这些问题，我们提出了一种框架，将RLHF问题建模为马尔可夫决策过程（MDP），从而能够捕捉到粒度更细的、基于令牌的信息。在这一框架下，我们引入了一种算法，名为强化令牌优化（RTO），它从偏好数据中学习基于令牌的奖励函数，并基于此学习到的令牌级别的奖励信号进行策略优化。理论上，RTO被证明有能力高效地找到近似最优策略。在其实现方面，RTO创新地将直接偏好优化（DPO）和PPO结合起来。DPO最初是从稀疏句子奖励推导而来的，意外地为我们提供了基于令牌的响应质量表征，这一表征能够无缝地融入我们后续的PPO训练阶段。广泛的实验表明，RTO在AlpacaEval 2基准测试中比PPO及其他直接偏好学习算法性能更好，在Arena-Hard中则超出PPO 4.1分。我们的代码和模型可以在 \href{https://github.com/zkshan2002/RTO}{https://github.com/zkshan2002/RTO} 获取。