LLM2D

摘要

arXiv:2405.06691v2 宣布类型: replace-cross 摘要：虽然已经开发出了许多框架来增强大型语言模型（LLMs）的推理能力，但在成本和质量之间的权衡方面，有效的解决方法相对缺乏。本文中，我们引入了Fleet of Agents（FoA），这是一种新颖且直观并在原则上利用LLMs作为代理，在动态树搜索中导航的新框架。FoA 使用了一种遗传类型的粒子滤波方法。FoA 生成了大量代理，每个代理自主探索搜索空间，随后是一个选择阶段，在该阶段中，基于启发式价值函数的重采样优化探索和利用之间的平衡。这种机制允许动态分支，并根据发现的解决方案调整探索策略。我们在三个基准任务“24点游戏”、“迷你填字游戏”和“WebShop”上进行了广泛的实验，使用了四种不同的LLM，“GPT-3.5”、“GPT-4”、“LLaMA3.2-11B”和“LLaMA3.2-90B”。在所有任务和LLM的平均成本上，FoA 的质量改进约为5%，而在成本上仅需要前SOTA方法的大约40%的成本。值得注意的是，我们的分析表明：（1）FoA 在所有基准方法中实现了最佳的成本-质量权衡；（2）FoA + LLaMA3.2-11B 超过了 Llama3.2-90B 模型。FoA 已在 https://github.com/au-clan/FoA 公开可用。