LLM2D

摘要

arXiv:2504.16489v1 通告类型: 横向摘要：多智能体辩论（MAD），通过大型语言模型（LLMs）之间的协作互动，旨在增强复杂任务的推理能力。然而，其迭代对话和角色扮演特性，尤其是容易受到引发有害内容的脱管攻击的安全影响，仍然严重未被充分探索。本文系统地研究了四种基于领先商用LLMs（GPT-4o、GPT-4、GPT-3.5-turbo和DeepSeek）构建的MAD框架的脱管漏洞，而不会削弱内部智能体的能力。我们引入了一种全新的结构化提示重写框架，专门设计用于通过故事情节封装、角色驱动升级、迭代精炼和修辞混淆来利用MAD动态特性。我们广泛的实验表明，MAD系统本质上比单智能体设置更为脆弱。至关重要的是，我们提出的攻击方法显著增强了这种脆弱性，将平均有害性从28.14%提高到80.34%，并在某些场景中实现了高达80%的攻击成功率。这些发现揭示了MAD架构中的固有脆弱性，并强调了在实际部署之前迫切需要开发强大且专门的防御措施。