LLM2D
面向目标的生成式提示注入攻击大型语言模型
Goal-guided Generative Prompt Injection Attack on Large Language Models
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2404.07234v3

摘要

当前的大型语言模型 (LLM) 为大规模用户导向的自然语言任务提供了坚实的基础。大量用户可以通过用户界面轻松注入对抗性文本或指令,从而导致 LLM 模型安全挑战。尽管目前针对提示注入攻击的研究很多,但大多数黑盒攻击都使用启发式策略。目前尚不清楚这些启发式策略与攻击成功率之间的关系,因此难以有效地提高模型鲁棒性。为了解决这个问题,我们重新定义了攻击目标:最大化干净文本和对抗文本的条件概率之间的 KL 散度。此外,我们证明了当条件概率为高斯分布时,最大化 KL 散度等同于最大化干净文本嵌入表示 $x$ 和对抗文本嵌入表示 $x'$ 之间的马氏距离,并给出了 $x$ 和 $x'$ 之间的定量关系。然后,我们设计了一种简单有效的目标导向生成式提示注入策略 (G2PIA),以找到满足特定约束条件的注入文本,从而近似地实现最佳攻击效果。尤其值得注意的是,我们的攻击方法是一种无需查询的黑盒攻击方法,计算成本低。在七种 LLM 模型和四个数据集上的实验结果表明了我们攻击方法的有效性。