摘要
arXiv:2503.13657v2 宣告类型: 重置
摘要: 尽管多智能体大型语言模型系统(MAS)越来越受到人们的关注,但它们在流行的基准测试中的性能提升往往仍然不如单智能体框架。这一差距凸显了系统地分析阻碍MAS有效性的挑战的必要性。
我们提出了MAST(多智能体系统故障分类法),这是第一个通过实证研究设计的分类法,旨在理解MAS故障。我们分析了七个流行的MAS框架,涉及超过200项任务,有六名专家人工标注者参与。通过这一过程,我们识别出14种独特的故障模式,并将其分为三大类:(i)规范问题,(ii)智能体间不对齐,和(iii)任务验证。MAST通过严谨的标注者间一致性研究逐步形成,达到了Kappa评分0.88。为了支持可扩展的评估,我们开发了一种验证的LLM作为裁判的管道,与MAST集成。我们利用两个案例研究展示了MAST在故障分析和指导MAS开发中的实际应用。我们的发现表明,识别出的故障需要更复杂的解决方案,这为未来研究指明了清晰的道路。我们开源了全面的数据集和LLM标注者,以促进MAS的进一步开发。