LLM2D

摘要

arXiv:2504.19162v1 评估类型：交叉摘要：评估大型语言模型（LLM）推理的逐步可靠性（如链式思考）仍然颇具挑战，主要原因在于获取高质量的步骤级监督难度和成本较高。本文中，我们提出了自我博弈评论家（Self-Play Critic, SPC）这一新颖方法，通过敌对的自我博弈游戏使评论家模型演化出评估推理步骤的能力，从而消除手动步骤级标注的需求。SPC 涉及对一个基础模型的两个副本进行微调，分别担任“狡猾生成器”和“评论家”的角色。“狡猾生成器”刻意生成难以检测的错误步骤，而“评论家”则分析推理步骤的正确性。这两款模型进行一项敌对游戏，在该游戏中生成器试图愚弄评论家，而评论家模型则试图识别生成器的错误。基于游戏结果的强化学习，模型能够逐步改进；每次对抗的胜者获得正奖励，而失败者则获得负奖励，从而推动持续的自我进化。在三个推理过程基准（ProcessBench、PRM800K、DeltaBench）上进行的实验表明，我们的SPC 进一步增强了其错误检测能力（例如，在ProcessBench 上准确性从70.8% 增加到77.7%），并超过了强大的基准模型，包括精简的R1 模型。此外，将SPC 应用于指导不同 LLM 的测试时搜索，在MATH500 和AIME2024 上显著提高了它们的数学推理性能，优于最先进的过程奖励模型。