LLM2D

摘要

arXiv:2504.03784v2 宣告类型：替换-交叉摘要：强化学习从人类反馈（RLHF）已经成为了使大型语言模型（LLMs）的输出与人类偏好相一致的关键技术。为了学习奖励函数，大多数现有的RLHF算法使用布拉德利-特里模型，该模型依赖于关于人类偏好的假设，这些假设可能无法反映现实世界判断的复杂性和多变性。在本文中，我们提出了一种稳健算法，以在这样的奖励模型错指定的情况下提高现有方法的性能。理论上，我们的算法降低了奖励和策略估计器的方差，从而改善了遗憾界。在对大型语言模型基准数据集进行的实证评估中，所提出的算法在Anthropic有益和无辜数据集上的一致性表现优于现有方法，有77-81%的响应被青睐于基线方法。