摘要
arXiv:2501.14304v2 宣告类型: 替换
摘要: 大型语言模型(LLM)越来越多地被探索用于问题解决任务。然而,人们往往对其战略规划能力持怀疑态度。近期的研究将蒙特卡洛树搜索(MCTS)算法融入其中,以增强LLM的规划能力。尽管具有潜力,但MCTS依赖于广泛的采样仿真来近似真实的奖励分布,这带来了两个主要问题。首先,MCTS在围棋等任务中效果良好,因为在这些任务中,仿真结果可以提供客观的奖励(例如,胜利得1分,失败得0分)。然而,对于问答等任务,仿真的结果只是问题的答案,无法在没有真实答案的情况下提供客观的奖励。其次,获得统计上显著的奖励估计通常需要超过30次仿真的样本量,导致了过多的令牌使用和时间消耗。为了应对这些挑战,我们提出了多代理系统,该系统利用了LLM专门化的MCTS,实现了战术执行和推理(MASTER)的新框架。该系统根据任务复杂性自主调整代理数量,并确保它们之间的集中通信。在各种任务上的全面实验表明,我们提出的框架非常有效。它在HotpotQA上达到了76%的准确率,在WebShop上达到了80%,在这些数据集上设定了新的最先进的性能。