LLM2D

摘要

arXiv:2501.14304v2 宣布类型:替换摘要:大型语言模型（LLM）越来越被探索用于解决问题的任务。然而，它们的战略规划能力经常受到怀疑。最近的研究将蒙特卡罗树搜索（MCTS）算法纳入其中，以增强LLM的规划能力。尽管MCTS具有潜力，但它依赖于广泛的采样模拟来近似真实奖励分布，这导致了两个主要问题。首先，对于围棋等任务，模拟结果可以提供客观的奖励（例如，胜利得1分，失败得0分）。然而，对于问答任务，模拟结果是问题的答案，没有参考答案就无法提供客观奖励。其次，获得统计上显著的奖励估计通常需要超过30次模拟的样本大小，导致大量的标记使用和时间消耗。为了解决这些问题，我们提出了一个名为利用LLM专业化MCTS的多代理系统与战术执行和推理（MASTER）的新型框架，该框架通过LLM专业化MCTS协调代理招聘和通信。该系统根据任务复杂性自主调整代理数量，并确保他们之间的集中通信。在各种任务的全面实验中，证明了我们提出的框架的有效性。该框架在HotpotQA上达到76%的准确率，在WebShop上达到80%，在这些数据集上设立了新的前沿性能。