LLM2D

摘要

基于大型语言模型 (LLM) 的多智能体系统 (MAS) 在协作问题解决方面展现出非凡的潜力，但它们仍然面临着严峻的挑战：低通信效率、可扩展性差以及缺乏有效的参数更新优化方法。我们提出了 Optima，一个新颖的框架，通过 LLM 训练来显著提高基于 LLM 的 MAS 的通信效率和任务有效性，从而解决这些问题。Optima 采用了一种迭代生成、排序、选择和训练范式，其奖励函数平衡了任务性能、令牌效率和通信可读性。我们探索了各种 RL 算法，包括监督微调、直接偏好优化及其混合方法，并提供了关于它们在有效性-效率权衡方面的见解。我们集成了受蒙特卡罗树搜索启发的技术来生成 DPO 数据，将对话轮次视为树节点以探索不同的交互路径。在常见的多个智能体任务（包括信息不对称问答和复杂推理）上进行评估，Optima 表现出比单智能体基线和基于 Llama 3 8B 的普通 MAS 持续且显著的改进，在需要大量信息交换的任务中，性能提升高达 2.8 倍，令牌使用量不到 10%。此外，Optima 的效率提升为更有效地利用推理计算开辟了新的可能性，从而导致推理时间缩放定律得到改善。通过解决基于 LLM 的 MAS 中的基本挑战，Optima 展示了构建可扩展、高效且有效 MAS 的潜力 (https://chenweize1998.github.io/optima-project-page)。