摘要
arXiv:2504.00218v1 安全类型: cross
摘要:关于大型语言模型(LLM)安全性的大多数讨论都集中在单智能体设置上,但多智能体LLM系统现在因为其行为依赖于智能体之间的通信和去中心化的推理而产生了新的对抗性风险。在这项工作中,我们创新性地关注攻击具有限制性约束(如有限的令牌带宽、消息传输延迟和防御机制)的实用系统。我们设计了一种$\textit{不变性对抗攻击}$,通过优化延迟和带宽受限网络拓扑中的提示分布,来绕过系统内的分布式安全机制。我们将攻击路径表述为$\textit{最大流最小成本}$问题,并结合新型$\textit{不变性逃避损失(PIEL)}$,利用基于图的优化技术来最大化攻击成功率,同时最小化检测风险。在包括$\texttt{Llama}$、$\texttt{Mistral}$、$\texttt{Gemma}$、$\texttt{DeepSeek}$及其他变种的多个模型以及$\texttt{JailBreakBench}$和$\texttt{AdversarialBench}$等多种数据集上进行评估,我们的方法相比传统攻击性能提升最多$7$倍,揭示了多智能体系统中的关键漏洞。此外,我们展示了现有的防御措施,包括$\texttt{Llama-Guard}$和$\texttt{PromptGuard}$的变体,都无法阻止我们的攻击,强调了迫切需要专门针对多智能体的安全机制。