LLM2D
大语言模型细调的鲁棒强化学习算法,基于人类反馈
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning
作者: Kai Ye, Hongyi Zhou, Jin Zhu, Francesco Quinzan, Chengchung Shi
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.03784v3

摘要

arXiv:2504.03784v3 宣告类型: replace-cross 摘要:从人类反馈进行强化学习(RLHF)已成为使大型语言模型(LLMs)输出与人类偏好一致的关键技术。为了学习奖励函数,目前大多数RLHF算法使用Bradley-Terry模型,该模型依赖于可能不反映真实世界判断复杂性和多样性的假设。在本文中,我们提出了一种稳健算法,以在这样的奖励模型不准确的情况下提高现有方法的性能。理论上,我们的算法降低了奖励和策略估计量的方差,从而改善了后悔界。在LLM基准数据集上的实证评估表明,所提出的算法在Anthropic Helpful and Harmless数据集上始终优于基线方法,能够在一半以上的响应中胜过基线方法。