摘要
随着大型语言模型(LLM)的进步,基于LLM的自主代理的开发越来越普遍。因此,理解这些代理的安全漏洞已成为一项关键任务。我们研究了如何使用一种我们称之为“登堂入室”攻击的简单有效方法来利用ReAct代理。我们的实验表明,由无害且无关的请求(例如基本计算)引发的间接提示注入攻击,可以显著增加代理执行后续恶意操作的可能性。我们的结果表明,一旦ReAct代理的思考包含特定的工具或操作,则在后续步骤中执行此工具的可能性会显著增加,因为代理很少重新评估其操作。因此,即使是随机的、无害的请求,也可以建立一个“立足点”,允许攻击者将恶意指令嵌入到代理的思维过程中,使其更容易受到有害指令的影响。为了减轻这种漏洞,我们建议实施一个简单的反射机制,提示代理在执行过程中重新评估其操作的安全性,这有助于降低此类攻击的成功率。