摘要
arXiv:2410.07283v1 公告类型: cross
摘要: 随着大型语言模型 (LLMs) 的日益强大,多智能体系统在现代AI应用中的使用越来越普遍。然而,大多数安全性研究都集中在单智能体LLMs的漏洞上。这些漏洞包括通过恶意提示嵌入在外部内容中来欺骗LLM执行意外或有害操作的提示注入攻击,从而损害受害者的应用。在本文中,我们揭示了一个更危险的向量:多智能体系统中的LLM到LLM提示注入。我们介绍了提示感染,这是一种新型攻击,其中恶意提示在相互连接的智能体之间自我复制,行为类似于计算机病毒。这种攻击带来的严重威胁包括数据盗窃、诈骗、虚假信息传播以及系统范围的破坏,同时在系统中悄悄传播。我们广泛的实验表明,即使智能体不公开共享所有通信,多智能体系统也极为易受攻击。为了解决这个问题,我们提出了LLM标记,这是一种防御机制,结合现有的保护措施,可以显著减轻感染的传播。本文突显了随着多智能体LLM系统更广泛地采用,迫切需要先进的安全措施。