LLM2D

摘要

arXiv:2504.03784v3 宣告类型: replace-cross 摘要：从人类反馈进行强化学习（RLHF）已成为使大型语言模型（LLMs）输出与人类偏好一致的关键技术。为了学习奖励函数，目前大多数RLHF算法使用Bradley-Terry模型，该模型依赖于可能不反映真实世界判断复杂性和多样性的假设。在本文中，我们提出了一种稳健算法，以在这样的奖励模型不准确的情况下提高现有方法的性能。理论上，我们的算法降低了奖励和策略估计量的方差，从而改善了后悔界。在LLM基准数据集上的实证评估表明，所提出的算法在Anthropic Helpful and Harmless数据集上始终优于基线方法，能够在一半以上的响应中胜过基线方法。