LLM2D
MASTER:一个专用LLM的多Agent系统与MCTS
MASTER: A Multi-Agent System with LLM Specialized MCTS
作者: Bingzheng Gan, Yufan Zhao, Tianyi Zhang, Jing Huang, Yusu Li, Shu Xian Teo, Changwang Zhang, Wei Shi
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2501.14304v2

摘要

arXiv:2501.14304v2 宣布类型:替换 摘要:大型语言模型(LLM)越来越被探索用于解决问题的任务。然而,它们的战略规划能力经常受到怀疑。最近的研究将蒙特卡罗树搜索(MCTS)算法纳入其中,以增强LLM的规划能力。尽管MCTS具有潜力,但它依赖于广泛的采样模拟来近似真实奖励分布,这导致了两个主要问题。首先,对于围棋等任务,模拟结果可以提供客观的奖励(例如,胜利得1分,失败得0分)。然而,对于问答任务,模拟结果是问题的答案,没有参考答案就无法提供客观奖励。其次,获得统计上显著的奖励估计通常需要超过30次模拟的样本大小,导致大量的标记使用和时间消耗。为了解决这些问题,我们提出了一个名为利用LLM专业化MCTS的多代理系统与战术执行和推理(MASTER)的新型框架,该框架通过LLM专业化MCTS协调代理招聘和通信。该系统根据任务复杂性自主调整代理数量,并确保他们之间的集中通信。在各种任务的全面实验中,证明了我们提出的框架的有效性。该框架在HotpotQA上达到76%的准确率,在WebShop上达到80%,在这些数据集上设立了新的前沿性能。