摘要
提示注入攻击旨在将恶意指令/数据注入到基于大型语言模型的应用程序的输入中,以使其产生攻击者期望的结果。现有工作仅限于案例研究,因此文献缺乏对提示注入攻击及其防御的系统性理解。本工作旨在弥合这一差距。具体来说,我们提出了一个框架来形式化提示注入攻击,现有的攻击都是我们框架中的特例。此外,基于我们的框架,我们通过组合现有的攻击设计了一种新的攻击方法。利用我们的框架,我们对5种提示注入攻击和10种防御方法进行了系统评估,使用了10个大型语言模型和7个任务。我们的工作为定量评估未来的提示注入攻击和防御提供了一个通用基准。为了促进对这一主题的研究,我们将我们的平台公开发布在https://github.com/liu00222/Open-Prompt-Injection。