LLM2D
放大脆弱性:基于LLM的多代理辩论结构化逃狱攻击
Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate
作者: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16489v1

摘要

arXiv:2504.16489v1 通告类型: 横向 摘要:多智能体辩论(MAD),通过大型语言模型(LLMs)之间的协作互动,旨在增强复杂任务的推理能力。然而,其迭代对话和角色扮演特性,尤其是容易受到引发有害内容的脱管攻击的安全影响,仍然严重未被充分探索。本文系统地研究了四种基于领先商用LLMs(GPT-4o、GPT-4、GPT-3.5-turbo和DeepSeek)构建的MAD框架的脱管漏洞,而不会削弱内部智能体的能力。我们引入了一种全新的结构化提示重写框架,专门设计用于通过故事情节封装、角色驱动升级、迭代精炼和修辞混淆来利用MAD动态特性。我们广泛的实验表明,MAD系统本质上比单智能体设置更为脆弱。至关重要的是,我们提出的攻击方法显著增强了这种脆弱性,将平均有害性从28.14%提高到80.34%,并在某些场景中实现了高达80%的攻击成功率。这些发现揭示了MAD架构中的固有脆弱性,并强调了在实际部署之前迫切需要开发强大且专门的防御措施。