LLM2D
大型语言模型中的奖励鲁棒性强化学习人类反馈
Reward-Robust RLHF in LLMs
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15360v1

摘要

随着大型语言模型 (LLMs) 持续朝着更高级的智能形式发展,来自人类反馈的强化学习 (RLHF) 越来越被视为实现通用人工智能 (AGI) 的关键途径。然而,对基于奖励模型 (RM) 的对齐方法的依赖带来了重大挑战,因为奖励模型 (RMs) 本身存在固有的不稳定性和缺陷,这会导致奖励黑客攻击和与人类意图不一致等关键问题。在本文中,我们提出了一种奖励鲁棒的 RLHF 框架,旨在解决这些基本挑战,为 LLMs 中更可靠和更具弹性的学习铺平道路。我们的方法引入了一种新颖的优化目标,通过整合贝叶斯奖励模型集成 (BRME) 来对奖励函数的不确定性集进行建模,从而谨慎地平衡性能和鲁棒性。这使得该框架能够整合名义性能和最小奖励信号,即使在奖励模型不完善的情况下也能确保更稳定的学习。实证结果表明,我们的框架在各种基准测试中始终优于传统的 RLHF,显示出更高的准确性和长期稳定性。我们还提供了理论分析,证明了奖励鲁棒的 RLHF 接近了恒定奖励设置的稳定性,这在随机情况分析中被证明是有效的。这些贡献共同突出了该框架在增强 RLHF 与 LLM 对齐的性能和稳定性方面的潜力。