LLM2D

摘要

尽管大型语言模型 (LLM) 的最新进展显著提高了它们在各种任务上的性能，但它们在复杂的符号化多步推理方面，尤其是在数学推理方面，仍然面临挑战。为了增强 LLM 的数学推理能力，大多数现有工作集中于寻求领域专家或 GPT-4 的帮助以获得高质量的过程监督数据，这不仅昂贵，而且劳动密集。在我们的研究中，我们提出了一种创新的框架 AlphaMath，它通过利用蒙特卡罗树搜索 (MCTS) 来绕过对过程注释（来自人类或 GPT）的需求。该框架专注于释放经过良好预训练的 LLM 的潜力，使其能够自主地增强其数学推理能力。具体来说，我们将价值模型与 LLM 集成在一起，在 MCTS 中自动生成过程监督和步骤级评估信号。此外，我们提出了一种高效的推理策略，即步骤级束搜索，其中价值模型被设计为辅助策略模型（即 LLM）导航更有效的推理路径，而不是仅仅依赖于先验概率。在域内和域外数据集上的实验结果表明，即使没有 GPT-4 或人工标注的过程监督，我们的 AlphaMath 框架也取得了与以前最先进方法相当或更好的结果。