摘要
奖励模型是强化学习从人类反馈 (RLHF) 系统中的关键,它使模型行为与人类偏好保持一致。特别是在数学领域,已经有很多研究使用奖励模型来调整策略,以提高推理能力。最近,随着奖励模型重要性的日益突出,RewardBench 被提出用于理解其行为。然而,我们发现 RewardBench 的数学子集在选择和拒绝的完成之间存在不同的表示,并且依赖于单一比较,这可能会导致不可靠的结果,因为它只看到一个孤立的案例。因此,它无法准确地体现奖励模型的鲁棒性,导致对其性能的误解,并可能导致奖励作弊。在这项工作中,我们介绍了一种可靠评估奖励模型的新设计,为了验证这一点,我们构建了 RewardMATH,这是一个基准,有效地代表了奖励模型在数学推理任务中的鲁棒性。我们证明了 RewardMATH 上的分数与优化策略的结果高度相关,并有效地估计了奖励过度优化,而现有的基准几乎没有相关性。结果强调了我们的设计在提高评估可靠性方面的潜力,并代表了奖励模型的鲁棒性。我们公开发布了我们的代码和数据。