LLM2D

摘要

arXiv:2410.08115v2 宣告类型: replace-cross 摘要: 基于大型语言模型（LLM）的多智能体系统（MAS）在协作问题解决方面展现了显著的潜力，但仍面临关键挑战：低通信效率、差的可扩展性和缺乏有效的参数更新优化方法。我们提出了一种名为Optima的新框架，通过通过LLM训练显著提高LLM基于MAS中的通信效率和任务有效性。Optima采用了一种迭代生成、排名、选择和训练的范式，利用奖励函数平衡任务性能、标记效率和通信可读性。我们探索了包括监督微调、直接偏好优化及其混合方法在内的各种RL算法，提供了它们在有效性和效率之间的权衡方面的见解。我们结合了受蒙特卡洛树搜索启发的技术进行DPO数据生成，将对话轮次视为树节点来探索多样化的交互路径。在信息不对称问答和复杂推理等常见多智能体任务上进行评估，Optima在单智能体基线和基于Llama 3 8B的vanilla MAS上展示了持续且显著的改进，仅在需要大量信息交换的任务中使用不到10%的标记即可获得高达2.8倍的性能提升。此外，Optima的效率提升为更有效地利用推理-计算资源开启了新的可能性，从而改善了解析时间的扩展法则。通过解决基于LLM的MAS中的基础挑战，Optima展示了可扩展、高效和有效的MAS的潜力（https://chenweize1998.github.io/optima-project-page）。