LLM2D

摘要

arXiv:2501.14304v2 宣告类型: 替换摘要: 大型语言模型（LLM）越来越多地被探索用于问题解决任务。然而，人们往往对其战略规划能力持怀疑态度。近期的研究将蒙特卡洛树搜索（MCTS）算法融入其中，以增强LLM的规划能力。尽管具有潜力，但MCTS依赖于广泛的采样仿真来近似真实的奖励分布，这带来了两个主要问题。首先，MCTS在围棋等任务中效果良好，因为在这些任务中，仿真结果可以提供客观的奖励（例如，胜利得1分，失败得0分）。然而，对于问答等任务，仿真的结果只是问题的答案，无法在没有真实答案的情况下提供客观的奖励。其次，获得统计上显著的奖励估计通常需要超过30次仿真的样本量，导致了过多的令牌使用和时间消耗。为了应对这些挑战，我们提出了多代理系统，该系统利用了LLM专门化的MCTS，实现了战术执行和推理（MASTER）的新框架。该系统根据任务复杂性自主调整代理数量，并确保它们之间的集中通信。在各种任务上的全面实验表明，我们提出的框架非常有效。它在HotpotQA上达到了76%的准确率，在WebShop上达到了80%，在这些数据集上设定了新的最先进的性能。