摘要
arXiv:2505.07271v1 Announce Type: cross
摘要:布雷得里-特里(BT)模型在带有人类反馈的强化学习(RLHF)中的奖励建模中被广泛应用。尽管其效果很好,但使用BT模型损失训练的奖励模型(RMs)容易过度优化,从而在未见过的输入分布上丧失了泛化能力。在本文中,我们研究了RMs训练中的过度优化的原因及其在RLHF流程中的下游效应,强调了RMs在未见过的数据集上的分布鲁棒性的重要性。首先,我们表明隐藏状态范数过度分散是过度优化的主要来源。然后,我们提出了批次级别和零和正则化(BSR),以确保每个批次的奖励和为零中心化,限制极值幅度的奖励。我们通过四种过度优化场景评估了BSR在提高RMs鲁棒性方面的影响,在所有场景中,BSR都显示出更好的鲁棒性。随后,我们在RLHF训练中比较了普通BT模型和BSR,并实验证明了鲁棒的RMs更好地对齐了策略与黄金偏好模型。最后,我们将BSR应用于高质量的数据和模型,在8B规模上超越了最先进的RMs,增加了5%以上在复杂偏好预测任务中的性能。通过使用8B RMs进行RLOO训练,AlpacaEval 2.0 的生成长度减少了40%,同时赢率增加了7%,进一步强调了RMs的鲁棒性在RLHF训练中的影响。我们发布了代码、数据和模型:https://github.com/LinkedIn-XFACT/RM-Robustness。