摘要
由大型语言模型驱动的多智能体系统在各种任务中展现出强大的能力,这得益于专家智能体的协作,每个智能体专注于特定领域。然而,当智能体分别部署时,存在恶意用户引入恶意智能体的风险,这些恶意智能体生成不正确或不相关的结果,这些结果过于隐蔽,无法被其他非专业智能体识别。因此,本文研究了两个重要问题:(1)在不同的下游任务中,各种多智能体系统结构(例如,A→B→C,A↔B↔C)在恶意智能体下的弹性如何?(2)如何提高系统弹性以防御恶意智能体?为了模拟恶意智能体,我们设计了两种方法,AutoTransform 和 AutoInject,将任何智能体转换为恶意智能体,同时保留其功能完整性。我们在四个下游多智能体系统任务上进行了全面实验,分别是代码生成、数学问题、翻译和文本评估。结果表明,“层次化”多智能体结构,即 A→(B↔C),表现出优异的弹性,性能下降最低为 23.6%,相比之下,其他两种结构的性能下降分别为 46.4% 和 49.8%。此外,我们证明了通过两种防御方法可以提高多智能体系统弹性,这些方法分别是:引入一种机制让每个智能体可以挑战其他智能体的输出,或者引入一个额外的智能体来审查和纠正消息,可以增强系统弹性。我们的代码和数据可在 https://github.com/CUHK-ARISE/MAS-Resilience 上获取。