LLM2D
完美融合:用混合评判重新定义 RLHF
The Perfect Blend: Redefining RLHF with Mixture of Judges
作者: Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng, Eric Han, Shaoliang Nie, Chen Zhu, Hejia Zhang, Wenxuan Zhou, Zhouhao Zeng, Yun He, Karishma Mandyam, Arya Talabzadeh, Madian Khabsa, Gabriel Cohen, Yuandong Tian, Hao Ma, Sinong Wang, Han Fang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20370v1

摘要

从人类反馈中进行强化学习 (RLHF) 已成为微调大型语言模型 (LLM) 的主要方法。然而,由于奖励黑客攻击和极端多目标优化(即多个和/或有时相互冲突的目标之间的权衡)的挑战,RLHF 在多任务学习 (MTL) 中存在局限性。目前,将 RLHF 应用于 MTL 需要仔细调整奖励模型和数据组合的权重。这通常通过人类直觉完成,并且不具有通用性。在这项工作中,我们介绍了一种新的训练后范式,我们称之为约束生成式策略优化 (CGPO)。CGPO 的核心是混合裁判 (MoJ),它结合了具有分层的成本效益约束策略优化,可以以原则性的方式识别 RLHF 中的完美融合。它展示了具有理论保证的强大实证结果,不需要大量的超参数调整,并且可以在常见的训练后管道中即插即用。总之,这可以检测和缓解奖励黑客攻击行为,同时在极大量目标中达到帕累托最优。 我们的实证评估表明,CGPO 在包括通用聊天、STEM 问题、指令遵循和编码在内的各种任务中明显优于标准 RLHF 算法,例如 PPO 和 DPO。具体而言,CGPO 在 AlpacaEval-2(通用聊天)中显示出 7.4% 的改进,在 Arena-Hard(STEM 和推理)中显示出 12.5% 的改进,以及在数学和编码等其他领域中始终如一的改进。值得注意的是,PPO 虽然被广泛使用,但在流行的编码基准测试中容易受到严重奖励黑客攻击的影响,而 CGPO 成功地解决了这个问题。RLHF 的这一突破不仅解决了奖励黑客攻击和极端多目标优化挑战,而且还推动了将通用 LLM 与各种应用对齐的最新技术发展。