LLM2D
大型语言模型微调的鲁棒强化学习,基于人类反馈
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning
作者: Kai Ye, Hongyi Zhou, Jin Zhu, Francesco Quinzan, Chengchung Shi
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03784v1

摘要

arXiv:2504.03784v1 类型: cross 摘要: 从人类反馈中强化学习(RLHF)已经成为使大型语言模型(LLMs)的输出与人类偏好相一致的关键技术。为了学习奖励函数,现有的大多数RLHF算法使用Bradley-Terry模型,该模型基于关于人类偏好的假设,而这些假设可能未能反映现实世界判断的复杂性和变化性。在这篇论文中,我们提出了一种稳健算法,以在这样的奖励模型指定不准确的情况下增强现有方法的性能。理论上,我们的算法减少了奖励和策略估计器的方差,导致改进的遗憾界。在Anthropic Helpful and Harmless数据集上的LLM基准数据集上的实证评估表明,所提出的算法在大多数情况下优于现有方法,与基线方法相比,有77-81%的响应更受欢迎。