LLM2D
可解释对比蒙特卡洛树搜索推理
Interpretable Contrastive Monte Carlo Tree Search Reasoning
作者: Zitian Gao, Boye Niu, Xuzheng He, Haotian Xu, Hongzhang Liu, Aiwei Liu, Xuming Hu, Lijie Wen
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.01707v2

摘要

我们提出了一种名为 SC-MCTS* 的新型蒙特卡洛树搜索 (MCTS) 推理算法,该算法显著提高了大型语言模型 (LLM) 的推理准确性和速度。我们的动机源于:1. 之前的 MCTS LLM 推理工作往往忽略了其最大的缺点——与 CoT 相比速度更慢;2. 之前的研究主要将 MCTS 作为 LLM 推理的工具,用于各种任务,对推理可解释性的角度进行了有限的定量分析或消融研究;3. 奖励模型是 MCTS 中最重要的组成部分,但之前的工作很少对 MCTS 的奖励模型进行深入研究或改进。因此,我们对 MCTS 的组件进行了广泛的消融研究和定量分析,揭示了每个组件对 LLM 的 MCTS 推理性能的影响。在此基础上,(i) 我们基于对比解码原理设计了一种高度可解释的奖励模型,以及 (ii) 使用推测解码,平均每个节点的速度提高了 51.9%。此外,(iii) 我们改进了之前工作中使用的 UCT 节点选择策略和反向传播,从而显著提高了性能。使用 Llama-3.1-70B 和 SC-MCTS*,我们在 Blocksworld 多步推理数据集上平均超过 o1-mini 17.4%。我们的代码可在 \url{https://github.com/zitian-gao/SC-MCTS} 获取。