摘要
arXiv:2504.03784v1 类型: cross
摘要: 从人类反馈中强化学习(RLHF)已经成为使大型语言模型(LLMs)的输出与人类偏好相一致的关键技术。为了学习奖励函数,现有的大多数RLHF算法使用Bradley-Terry模型,该模型基于关于人类偏好的假设,而这些假设可能未能反映现实世界判断的复杂性和变化性。在这篇论文中,我们提出了一种稳健算法,以在这样的奖励模型指定不准确的情况下增强现有方法的性能。理论上,我们的算法减少了奖励和策略估计器的方差,导致改进的遗憾界。在Anthropic Helpful and Harmless数据集上的LLM基准数据集上的实证评估表明,所提出的算法在大多数情况下优于现有方法,与基线方法相比,有77-81%的响应更受欢迎。