摘要
arXiv:2505.00662v1 Announce Type: 剪刀
摘要:由于大型语言模型(LLMs)正在迅速发展,提供准确反馈和可扩展的监管变得极为迫切和关键。利用LLMs作为评审模型以实现自动化监督是一种有前途的解决方案。在本文中,我们集中研究并增强了LLMs的数学评审能力。当前的LLM评审者提供的评审过于浅显和表面化,导致判断准确性低,并且难以提供足够的反馈使LLM生成器能够纠正错误。为了解决这一问题,我们提出了一种新颖且有效的两阶段框架来开发能够在数学解决方案的每一个推理步骤中有目的地进行评审的LLM评审者。在第一阶段,我们利用Qwen2.5-72B-Instruct生成4.5K长文形式的评审作为监督微调的种子数据。每个种子评审包含针对每个推理步骤的多视角验证以及初始评审的深入评论。然后,我们使用PRM800K的人工标注数据或通过蒙特卡洛采样基于正确性估计自动标注的数据对微调后的模型进行强化学习,以进一步激励其评审能力。基于Qwen2.5-7B-Instruct开发的评审模型不仅在各种错误识别基准上显著优于现有LLM评审者(包括相同规模的DeepSeek-R1-distill模型和GPT-4o模型),还能更有效地通过更详细的反馈帮助LLM生成器精炼错误步骤。