LLM2D
大型语言模型 fine-tuning 从人类反馈获得的鲁棒强化学习
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning
作者: Kai Ye, Hongyi Zhou, Jin Zhu, Francesco Quinzan, Chengchung Shi
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.03784v2

摘要

arXiv:2504.03784v2 宣告类型:替换-交叉 摘要:强化学习从人类反馈(RLHF)已经成为了使大型语言模型(LLMs)的输出与人类偏好相一致的关键技术。为了学习奖励函数,大多数现有的RLHF算法使用布拉德利-特里模型,该模型依赖于关于人类偏好的假设,这些假设可能无法反映现实世界判断的复杂性和多变性。在本文中,我们提出了一种稳健算法,以在这样的奖励模型错指定的情况下提高现有方法的性能。理论上,我们的算法降低了奖励和策略估计器的方差,从而改善了遗憾界。在对大型语言模型基准数据集进行的实证评估中,所提出的算法在Anthropic有益和无辜数据集上的一致性表现优于现有方法,有77-81%的响应被青睐于基线方法。