LLM2D

摘要

从人类反馈中进行强化学习 (RLHF) 已成为微调大型语言模型 (LLM) 的主要方法。然而，由于奖励黑客攻击和极端多目标优化（即多个和/或有时相互冲突的目标之间的权衡）的挑战，RLHF 在多任务学习 (MTL) 中存在局限性。目前，将 RLHF 应用于 MTL 需要仔细调整奖励模型和数据组合的权重。这通常通过人类直觉完成，并且不具有通用性。在这项工作中，我们介绍了一种新的训练后范式，我们称之为约束生成式策略优化 (CGPO)。CGPO 的核心是混合裁判 (MoJ)，它结合了具有分层的成本效益约束策略优化，可以以原则性的方式识别 RLHF 中的完美融合。它展示了具有理论保证的强大实证结果，不需要大量的超参数调整，并且可以在常见的训练后管道中即插即用。总之，这可以检测和缓解奖励黑客攻击行为，同时在极大量目标中达到帕累托最优。我们的实证评估表明，CGPO 在包括通用聊天、STEM 问题、指令遵循和编码在内的各种任务中明显优于标准 RLHF 算法，例如 PPO 和 DPO。具体而言，CGPO 在 AlpacaEval-2（通用聊天）中显示出 7.4% 的改进，在 Arena-Hard（STEM 和推理）中显示出 12.5% 的改进，以及在数学和编码等其他领域中始终如一的改进。值得注意的是，PPO 虽然被广泛使用，但在流行的编码基准测试中容易受到严重奖励黑客攻击的影响，而 CGPO 成功地解决了这个问题。RLHF 的这一突破不仅解决了奖励黑客攻击和极端多目标优化挑战，而且还推动了将通用 LLM 与各种应用对齐的最新技术发展。