摘要
从人类反馈中进行强化学习 (RLHF) 已成为微调大型语言模型 (LLM) 的主要方法。然而,由于奖励黑客攻击和极端多目标优化(即多个和/或有时相互冲突的目标之间的权衡)的挑战,RLHF 在多任务学习 (MTL) 中存在局限性。目前,将 RLHF 应用于 MTL 需要仔细调整奖励模型和数据组合的权重。这通常通过人类直觉完成,并且不具有通用性。在这项工作中,我们介绍了一种新的训练后范式,我们称之为约束生成式策略优化 (CGPO)。CGPO 的核心是混合裁判 (MoJ),它结合了具有分层的成本效益约束策略优化,可以以原则性的方式识别 RLHF 中的完美融合。它展示了具有理论保证的强大实证结果,不需要大量的超参数调整,并且可以在常见的训练后管道中即插即用。总之,这可以检测和缓解奖励黑客攻击行为,同时在极大量目标中达到帕累托最优。
我们的实证评估表明,CGPO 在包括通用聊天、STEM 问题、指令遵循和编码在内的各种任务中明显优于标准 RLHF 算法,例如 PPO 和 DPO。具体而言,CGPO 在 AlpacaEval-2(通用聊天)中显示出 7.4% 的改进,在 Arena-Hard(STEM 和推理)中显示出 12.5% 的改进,以及在数学和编码等其他领域中始终如一的改进。值得注意的是,PPO 虽然被广泛使用,但在流行的编码基准测试中容易受到严重奖励黑客攻击的影响,而 CGPO 成功地解决了这个问题。RLHF 的这一突破不仅解决了奖励黑客攻击和极端多目标优化挑战,而且还推动了将通用 LLM 与各种应用对齐的最新技术发展。