摘要
arXiv:2504.19162v1 评估类型:交叉
摘要:评估大型语言模型(LLM)推理的逐步可靠性(如链式思考)仍然颇具挑战,主要原因在于获取高质量的步骤级监督难度和成本较高。本文中,我们提出了自我博弈评论家(Self-Play Critic, SPC)这一新颖方法,通过敌对的自我博弈游戏使评论家模型演化出评估推理步骤的能力,从而消除手动步骤级标注的需求。SPC 涉及对一个基础模型的两个副本进行微调,分别担任“狡猾生成器”和“评论家”的角色。“狡猾生成器”刻意生成难以检测的错误步骤,而“评论家”则分析推理步骤的正确性。这两款模型进行一项敌对游戏,在该游戏中生成器试图愚弄评论家,而评论家模型则试图识别生成器的错误。基于游戏结果的强化学习,模型能够逐步改进;每次对抗的胜者获得正奖励,而失败者则获得负奖励,从而推动持续的自我进化。在三个推理过程基准(ProcessBench、PRM800K、DeltaBench)上进行的实验表明,我们的SPC 进一步增强了其错误检测能力(例如,在ProcessBench 上准确性从70.8% 增加到77.7%),并超过了强大的基准模型,包括精简的R1 模型。此外,将SPC 应用于指导不同 LLM 的测试时搜索,在MATH500 和AIME2024 上显著提高了它们的数学推理性能,优于最先进的过程奖励模型。