摘要
arXiv:2501.03124v3 更新类型: replace-cross
摘要: 过程级奖励模型(PRMs)对于复杂推理和决策任务至关重要,其中每一中间步骤在推理过程中都扮演着重要角色。由于语言模型在推理过程中容易出现多种类型的错误,因此PRMs需要具备检测现实世界中各种隐含错误类型的能力。然而,当前的基准测试主要关注步骤的正确性,未能系统地评估PRMs的性能。为解决这个差距,我们引入了PRMBench,这是一个专门为评估PRMs的细粒度错误检测能力而设计的过程级基准测试。PRMBench包含6,216个精心设计的问题和83,456个步骤级标签,在多个维度上评估模型,包括简单性、正确性和灵敏性。在对15个模型的实验中,这些模型涵盖了开源和闭源大型语言模型作为批评模型,我们发现当前PRMs存在显著的缺陷。这些发现突显了过程级评估固有的挑战,并指出了未来研究的关键方向。我们希望PRMBench能够成为一个坚实的基准,促进PRM评估和开发的研究。