LLM2D

摘要

我们提出了一种名为 SC-MCTS* 的新型蒙特卡洛树搜索 (MCTS) 推理算法，该算法显著提高了大型语言模型 (LLM) 的推理准确性和速度。我们的动机源于：1. 之前的 MCTS LLM 推理工作往往忽略了其最大的缺点——与 CoT 相比速度更慢；2. 之前的研究主要将 MCTS 作为 LLM 推理的工具，用于各种任务，对推理可解释性的角度进行了有限的定量分析或消融研究；3. 奖励模型是 MCTS 中最重要的组成部分，但之前的工作很少对 MCTS 的奖励模型进行深入研究或改进。因此，我们对 MCTS 的组件进行了广泛的消融研究和定量分析，揭示了每个组件对 LLM 的 MCTS 推理性能的影响。在此基础上，(i) 我们基于对比解码原理设计了一种高度可解释的奖励模型，以及 (ii) 使用推测解码，平均每个节点的速度提高了 51.9%。此外，(iii) 我们改进了之前工作中使用的 UCT 节点选择策略和反向传播，从而显著提高了性能。使用 Llama-3.1-70B 和 SC-MCTS*，我们在 Blocksworld 多步推理数据集上平均超过 o1-mini 17.4%。我们的代码可在 \url{https://github.com/zitian-gao/SC-MCTS} 获取。