LLM2D

摘要

arXiv:2501.03124v3 更新类型: replace-cross 摘要: 过程级奖励模型（PRMs）对于复杂推理和决策任务至关重要，其中每一中间步骤在推理过程中都扮演着重要角色。由于语言模型在推理过程中容易出现多种类型的错误，因此PRMs需要具备检测现实世界中各种隐含错误类型的能力。然而，当前的基准测试主要关注步骤的正确性，未能系统地评估PRMs的性能。为解决这个差距，我们引入了PRMBench，这是一个专门为评估PRMs的细粒度错误检测能力而设计的过程级基准测试。PRMBench包含6,216个精心设计的问题和83,456个步骤级标签，在多个维度上评估模型，包括简单性、正确性和灵敏性。在对15个模型的实验中，这些模型涵盖了开源和闭源大型语言模型作为批评模型，我们发现当前PRMs存在显著的缺陷。这些发现突显了过程级评估固有的挑战，并指出了未来研究的关键方向。我们希望PRMBench能够成为一个坚实的基准，促进PRM评估和开发的研究。