LLM2D

摘要

随着大型语言模型 (LLMs) 持续朝着更高级的智能形式发展，来自人类反馈的强化学习 (RLHF) 越来越被视为实现通用人工智能 (AGI) 的关键途径。然而，对基于奖励模型 (RM) 的对齐方法的依赖带来了重大挑战，因为奖励模型 (RMs) 本身存在固有的不稳定性和缺陷，这会导致奖励黑客攻击和与人类意图不一致等关键问题。在本文中，我们提出了一种奖励鲁棒的 RLHF 框架，旨在解决这些基本挑战，为 LLMs 中更可靠和更具弹性的学习铺平道路。我们的方法引入了一种新颖的优化目标，通过整合贝叶斯奖励模型集成 (BRME) 来对奖励函数的不确定性集进行建模，从而谨慎地平衡性能和鲁棒性。这使得该框架能够整合名义性能和最小奖励信号，即使在奖励模型不完善的情况下也能确保更稳定的学习。实证结果表明，我们的框架在各种基准测试中始终优于传统的 RLHF，显示出更高的准确性和长期稳定性。我们还提供了理论分析，证明了奖励鲁棒的 RLHF 接近了恒定奖励设置的稳定性，这在随机情况分析中被证明是有效的。这些贡献共同突出了该框架在增强 RLHF 与 LLM 对齐的性能和稳定性方面的潜力。