LLM2D

摘要

arXiv:2504.16828v1 交叉验证类型摘要：逐步验证器——也称为过程奖励模型（PRMs）——是测试时扩展的关键成分。PRMs 需要步骤级别的监督，使它们在训练时很昂贵。这项工作旨在构建数据高效的 PRMs，将其作为口头描述的逐步奖励模型，通过生成验证链思考（CoT）验证解决方案中的每一步。我们提出了 ThinkPRM，这是一种长 CoT 验证器，通过少量的过程标签（PRM800K 的千分之一）进行微调。我们的方法利用了长 CoT 模型固有的推理能力，并在多种挑战性基准测试中优于 LLM-as-a-Judge 和判别性验证器。在 ProcessBench、MATH-500 和 AIME '24 下，ThinkPRM 在最好的 N 选择和奖励引导搜索中击败了基线。在 GPQA-Diamond 和 LiveCodeBench 的子集上进行领域外评估时，我们的 PRM 分别比在完整 PRM800K 上训练的判别性验证器高 8% 和 4.5%。最后，在相同的标记预算下，ThinkPRM 更有效地扩展了验证计算，与 ProcessBench 的子集相比，比 LLM-as-a-Judge 高出 7.2%。我们的工作强调了生成性、长 CoT PRMs 的价值，这些模型可以在验证测试计算扩展时需要最少的监督即可进行训练。我们的代码、数据和模型将在 https://github.com/mukhal/thinkprm 上发布。