LLM2D

摘要

奖励模型是强化学习从人类反馈 (RLHF) 系统中的关键，它使模型行为与人类偏好保持一致。特别是在数学领域，已经有很多研究使用奖励模型来调整策略，以提高推理能力。最近，随着奖励模型重要性的日益突出，RewardBench 被提出用于理解其行为。然而，我们发现 RewardBench 的数学子集在选择和拒绝的完成之间存在不同的表示，并且依赖于单一比较，这可能会导致不可靠的结果，因为它只看到一个孤立的案例。因此，它无法准确地体现奖励模型的鲁棒性，导致对其性能的误解，并可能导致奖励作弊。在这项工作中，我们介绍了一种可靠评估奖励模型的新设计，为了验证这一点，我们构建了 RewardMATH，这是一个基准，有效地代表了奖励模型在数学推理任务中的鲁棒性。我们证明了 RewardMATH 上的分数与优化策略的结果高度相关，并有效地估计了奖励过度优化，而现有的基准几乎没有相关性。结果强调了我们的设计在提高评估可靠性方面的潜力，并代表了奖励模型的鲁棒性。我们公开发布了我们的代码和数据。