LLM2D
多代理LLM系统为什么失败?
Why Do Multi-Agent LLM Systems Fail?
作者: Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2503.13657v2

摘要

arXiv:2503.13657v2 宣告类型: 重置 摘要: 尽管多智能体大型语言模型系统(MAS)越来越受到人们的关注,但它们在流行的基准测试中的性能提升往往仍然不如单智能体框架。这一差距凸显了系统地分析阻碍MAS有效性的挑战的必要性。 我们提出了MAST(多智能体系统故障分类法),这是第一个通过实证研究设计的分类法,旨在理解MAS故障。我们分析了七个流行的MAS框架,涉及超过200项任务,有六名专家人工标注者参与。通过这一过程,我们识别出14种独特的故障模式,并将其分为三大类:(i)规范问题,(ii)智能体间不对齐,和(iii)任务验证。MAST通过严谨的标注者间一致性研究逐步形成,达到了Kappa评分0.88。为了支持可扩展的评估,我们开发了一种验证的LLM作为裁判的管道,与MAST集成。我们利用两个案例研究展示了MAST在故障分析和指导MAS开发中的实际应用。我们的发现表明,识别出的故障需要更复杂的解决方案,这为未来研究指明了清晰的道路。我们开源了全面的数据集和LLM标注者,以促进MAS的进一步开发。