LLM2D

摘要

arXiv:2505.07271v1 Announce Type: cross 摘要：布雷得里-特里（BT）模型在带有人类反馈的强化学习（RLHF）中的奖励建模中被广泛应用。尽管其效果很好，但使用BT模型损失训练的奖励模型（RMs）容易过度优化，从而在未见过的输入分布上丧失了泛化能力。在本文中，我们研究了RMs训练中的过度优化的原因及其在RLHF流程中的下游效应，强调了RMs在未见过的数据集上的分布鲁棒性的重要性。首先，我们表明隐藏状态范数过度分散是过度优化的主要来源。然后，我们提出了批次级别和零和正则化（BSR），以确保每个批次的奖励和为零中心化，限制极值幅度的奖励。我们通过四种过度优化场景评估了BSR在提高RMs鲁棒性方面的影响，在所有场景中，BSR都显示出更好的鲁棒性。随后，我们在RLHF训练中比较了普通BT模型和BSR，并实验证明了鲁棒的RMs更好地对齐了策略与黄金偏好模型。最后，我们将BSR应用于高质量的数据和模型，在8B规模上超越了最先进的RMs，增加了5%以上在复杂偏好预测任务中的性能。通过使用8B RMs进行RLOO训练，AlpacaEval 2.0 的生成长度减少了40%，同时赢率增加了7%，进一步强调了RMs的鲁棒性在RLHF训练中的影响。我们发布了代码、数据和模型：https://github.com/LinkedIn-XFACT/RM-Robustness。