LLM2D

摘要

arXiv:2503.13657v2 宣告类型: 重置摘要: 尽管多智能体大型语言模型系统（MAS）越来越受到人们的关注，但它们在流行的基准测试中的性能提升往往仍然不如单智能体框架。这一差距凸显了系统地分析阻碍MAS有效性的挑战的必要性。我们提出了MAST（多智能体系统故障分类法），这是第一个通过实证研究设计的分类法，旨在理解MAS故障。我们分析了七个流行的MAS框架，涉及超过200项任务，有六名专家人工标注者参与。通过这一过程，我们识别出14种独特的故障模式，并将其分为三大类：（i）规范问题，（ii）智能体间不对齐，和（iii）任务验证。MAST通过严谨的标注者间一致性研究逐步形成，达到了Kappa评分0.88。为了支持可扩展的评估，我们开发了一种验证的LLM作为裁判的管道，与MAST集成。我们利用两个案例研究展示了MAST在故障分析和指导MAS开发中的实际应用。我们的发现表明，识别出的故障需要更复杂的解决方案，这为未来研究指明了清晰的道路。我们开源了全面的数据集和LLM标注者，以促进MAS的进一步开发。