LLM2D

摘要

随着大型语言模型（LLMs）不断朝着更高级的智能形式发展，来自人类反馈的强化学习（RLHF）越来越被视为实现通用人工智能（AGI）的关键途径。然而，对基于奖励模型（RM）的对齐方法的依赖带来了重大挑战，因为奖励模型（RM）固有的不稳定性和缺陷会导致奖励黑客攻击和与人类意图不一致等关键问题。在本文中，我们介绍了一种奖励鲁棒的 RLHF 框架，旨在解决这些基本挑战，为 LLMs 中更可靠、更具弹性的学习铺平道路。我们的方法引入了一种新颖的优化目标，通过结合贝叶斯奖励模型集合（BRME）来建模奖励函数的不确定性集，从而仔细平衡性能和鲁棒性。这使该框架能够整合名义性能和最小奖励信号，即使在不完美的 RM 中也能确保更稳定的学习。实证结果表明，我们的框架在各种基准测试中始终优于基线，显示出更高的准确性和长期稳定性。我们还提供了理论分析，证明奖励鲁棒的 RLHF 接近恒定奖励设置的稳定性，这在随机情况分析中也被证明是可以接受的。这些贡献共同突出了该框架在增强 LLM 对齐的性能和稳定性方面的潜力。