摘要
arXiv:2504.16828v1 交叉验证类型
摘要:逐步验证器——也称为过程奖励模型(PRMs)——是测试时扩展的关键成分。PRMs 需要步骤级别的监督,使它们在训练时很昂贵。这项工作旨在构建数据高效的 PRMs,将其作为口头描述的逐步奖励模型,通过生成验证链思考(CoT)验证解决方案中的每一步。我们提出了 ThinkPRM,这是一种长 CoT 验证器,通过少量的过程标签(PRM800K 的千分之一)进行微调。我们的方法利用了长 CoT 模型固有的推理能力,并在多种挑战性基准测试中优于 LLM-as-a-Judge 和判别性验证器。在 ProcessBench、MATH-500 和 AIME '24 下,ThinkPRM 在最好的 N 选择和奖励引导搜索中击败了基线。在 GPQA-Diamond 和 LiveCodeBench 的子集上进行领域外评估时,我们的 PRM 分别比在完整 PRM800K 上训练的判别性验证器高 8% 和 4.5%。最后,在相同的标记预算下,ThinkPRM 更有效地扩展了验证计算,与 ProcessBench 的子集相比,比 LLM-as-a-Judge 高出 7.2%。我们的工作强调了生成性、长 CoT PRMs 的价值,这些模型可以在验证测试计算扩展时需要最少的监督即可进行训练。我们的代码、数据和模型将在 https://github.com/mukhal/thinkprm 上发布。