LLM2D

摘要

随着大型语言模型（LLM）的进步，基于LLM的自主代理的开发越来越普遍。因此，理解这些代理的安全漏洞已成为一项关键任务。我们研究了如何使用一种我们称之为“登堂入室”攻击的简单有效方法来利用ReAct代理。我们的实验表明，由无害且无关的请求（例如基本计算）引发的间接提示注入攻击，可以显著增加代理执行后续恶意操作的可能性。我们的结果表明，一旦ReAct代理的思考包含特定的工具或操作，则在后续步骤中执行此工具的可能性会显著增加，因为代理很少重新评估其操作。因此，即使是随机的、无害的请求，也可以建立一个“立足点”，允许攻击者将恶意指令嵌入到代理的思维过程中，使其更容易受到有害指令的影响。为了减轻这种漏洞，我们建议实施一个简单的反射机制，提示代理在执行过程中重新评估其操作的安全性，这有助于降低此类攻击的成功率。