摘要
arXiv:2405.06691v2 宣布类型: replace-cross
摘要:虽然已经开发出了许多框架来增强大型语言模型(LLMs)的推理能力,但在成本和质量之间的权衡方面,有效的解决方法相对缺乏。本文中,我们引入了Fleet of Agents(FoA),这是一种新颖且直观并在原则上利用LLMs作为代理,在动态树搜索中导航的新框架。FoA 使用了一种遗传类型的粒子滤波方法。FoA 生成了大量代理,每个代理自主探索搜索空间,随后是一个选择阶段,在该阶段中,基于启发式价值函数的重采样优化探索和利用之间的平衡。这种机制允许动态分支,并根据发现的解决方案调整探索策略。我们在三个基准任务“24点游戏”、“迷你填字游戏”和“WebShop”上进行了广泛的实验,使用了四种不同的LLM,“GPT-3.5”、“GPT-4”、“LLaMA3.2-11B”和“LLaMA3.2-90B”。在所有任务和LLM的平均成本上,FoA 的质量改进约为5%,而在成本上仅需要前SOTA方法的大约40%的成本。值得注意的是,我们的分析表明:(1)FoA 在所有基准方法中实现了最佳的成本-质量权衡;(2)FoA + LLaMA3.2-11B 超过了 Llama3.2-90B 模型。FoA 已在 https://github.com/au-clan/FoA 公开可用。