摘要
arXiv:2504.03784v3 宣告类型: replace-cross
摘要:从人类反馈进行强化学习(RLHF)已成为使大型语言模型(LLMs)输出与人类偏好一致的关键技术。为了学习奖励函数,目前大多数RLHF算法使用Bradley-Terry模型,该模型依赖于可能不反映真实世界判断复杂性和多样性的假设。在本文中,我们提出了一种稳健算法,以在这样的奖励模型不准确的情况下提高现有方法的性能。理论上,我们的算法降低了奖励和策略估计量的方差,从而改善了后悔界。在LLM基准数据集上的实证评估表明,所提出的算法在Anthropic Helpful and Harmless数据集上始终优于基线方法,能够在一半以上的响应中胜过基线方法。