LLM2D

摘要

arXiv:2504.03784v1 类型: cross 摘要: 从人类反馈中强化学习（RLHF）已经成为使大型语言模型（LLMs）的输出与人类偏好相一致的关键技术。为了学习奖励函数，现有的大多数RLHF算法使用Bradley-Terry模型，该模型基于关于人类偏好的假设，而这些假设可能未能反映现实世界判断的复杂性和变化性。在这篇论文中，我们提出了一种稳健算法，以在这样的奖励模型指定不准确的情况下增强现有方法的性能。理论上，我们的算法减少了奖励和策略估计器的方差，导致改进的遗憾界。在Anthropic Helpful and Harmless数据集上的LLM基准数据集上的实证评估表明，所提出的算法在大多数情况下优于现有方法，与基线方法相比，有77-81%的响应更受欢迎。