LLM2D

摘要

来自人类反馈的强化学习将大型语言模型的输出与人类的价值观和偏好相一致。奖励模型 (RM) 是这一过程的核心，它将人类反馈转化为训练信号，以优化 LLM 的行为。然而，RM 可能会通过利用其训练数据中的虚假相关性来发展偏差，例如偏向基于长度或风格而不是真实质量的输出。这些偏差会导致不正确的输出排名、次优的模型评估，以及在 LLM 对齐中放大不良行为。本文解决了在没有额外数据和训练的情况下纠正此类偏差的挑战，引入了事后奖励校准的概念。我们首先提出了一种直观的估计偏差项的方法，从而将其移除以近似潜在的真实奖励。然后，我们使用局部加权回归将该方法扩展到更通用和稳健的形式。专注于普遍的长度偏差，我们在三个实验设置中验证了我们提出的方法，证明了持续的改进：（1）在 RewardBench 数据集上的 33 个奖励模型中，平均性能提升了 3.11；（2）基于 AlpacaEval 基准，RM 排名与 GPT-4 评估和人类偏好的对齐增强；（3）在多个 LLM-RM 组合中，RLHF 过程的长度控制胜率得到提高。我们的方法在计算上是高效的，并且可以推广到其他类型的偏差和 RM，为减轻 LLM 对齐中的偏差提供了一种可扩展且稳健的解决方案。我们的代码和结果可在 https://github.com/ZeroYuHuang/Reward-Calibration 获得。