LLM2D
AlphaMath 近乎零:无过程监督学习
AlphaMath Almost Zero: Process Supervision without Process
作者: Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2405.03553v3

摘要

尽管大型语言模型 (LLM) 的最新进展显著提高了它们在各种任务上的性能,但它们在复杂的符号化多步推理方面,尤其是在数学推理方面,仍然面临挑战。为了增强 LLM 的数学推理能力,大多数现有工作集中于寻求领域专家或 GPT-4 的帮助以获得高质量的过程监督数据,这不仅昂贵,而且劳动密集。在我们的研究中,我们提出了一种创新的框架 AlphaMath,它通过利用蒙特卡罗树搜索 (MCTS) 来绕过对过程注释(来自人类或 GPT)的需求。该框架专注于释放经过良好预训练的 LLM 的潜力,使其能够自主地增强其数学推理能力。具体来说,我们将价值模型与 LLM 集成在一起,在 MCTS 中自动生成过程监督和步骤级评估信号。此外,我们提出了一种高效的推理策略,即步骤级束搜索,其中价值模型被设计为辅助策略模型(即 LLM)导航更有效的推理路径,而不是仅仅依赖于先验概率。在域内和域外数据集上的实验结果表明,即使没有 GPT-4 或人工标注的过程监督,我们的 AlphaMath 框架也取得了与以前最先进方法相当或更好的结果。