LLM2D

摘要

arXiv:2504.10045v1 宣告类型: 新颖摘要: 奖励模型（RMs）在通过代理人类偏好来对齐大规模语言模型的强化学习从人类反馈中发挥着关键作用。在本文中，我们识别出RMs中的一种模型偏好偏差，其中它们系统地对某些策略模型的回复赋予了不相称的高分。这种偏差扭曲了排名评估，并导致了不公正的判断。为了应对这一问题，我们提出了一种称为CHatbot Arena校准奖励建模（CHARM）的方法，该方法利用Chatbot Arena排行榜中的Elo分数来缓解RMs的过度估值。我们还引入了一种差异度量标准来衡量这种偏好偏差。我们的方法计算效率高，只需一个小型的偏好数据集即可继续训练RMs。我们在奖励模型基准和人类偏好对齐方面进行了广泛的实验。结果表明，我们的校准RMs：(1) 在RM-Bench和RewardBench的Chat-Hard领域中实现了更好的评估准确性；(2) 与人类偏好表现出更强的相关性，生成的分数更接近Elo排名。通过缓解模型偏好偏差，该方法为构建更公平可靠的奖励模型提供了一种通用且高效的解决方案。