LLM2D

摘要

arXiv:2405.06691v3 宣布类型: replace-cross 摘要：尽管已经开发出了许多框架来增强大语言模型（LLMs）的推理能力，但在成本和质量之间的权衡方面有效的方法却非常稀缺。在本文中，我们介绍了一种新颖且直观且有原则的框架 Fleet of Agents (FoA)，它利用 LLMs 作为代理通过动态树搜索进行导航，并采用了一种类似遗传算法的粒子滤波方法。FoA 启动了大量代理，每个代理在搜索空间中自主探索，随后是一个选择阶段，在该阶段，基于启发式价值函数的重采样优化了探索和利用之间的平衡。这种机制实现了动态分支，根据发现的解决方案调整探索策略。我们在三个基准任务——“24点游戏”、“迷你数独”和“WebShop”——上进行了广泛实验，使用了四种不同的 LLMs，“GPT-3.5”、“GPT-4”、“LLaMA3.2-11B”和“LLaMA3.2-90B”。在所有任务和 LLMs 的平均表现上，FoA 比之前的方法节省了大约 60% 的成本，同时提高了大约 5% 的质量。值得注意的是，我们的分析揭示了以下两点：(1) FoA 在所有基准方法中实现了最佳的成本-质量权衡；(2) FoA + LLaMA3.2-11B 超过了 Llama3.2-90B 模型。FoA 在 https://github.com/au-clan/FoA 公开可用。