LLM2D

摘要

当前的大型语言模型 (LLM) 为大规模用户导向的自然语言任务提供了坚实的基础。大量用户可以通过用户界面轻松注入对抗性文本或指令，从而导致 LLM 模型安全挑战。尽管目前针对提示注入攻击的研究很多，但大多数黑盒攻击都使用启发式策略。目前尚不清楚这些启发式策略与攻击成功率之间的关系，因此难以有效地提高模型鲁棒性。为了解决这个问题，我们重新定义了攻击目标：最大化干净文本和对抗文本的条件概率之间的 KL 散度。此外，我们证明了当条件概率为高斯分布时，最大化 KL 散度等同于最大化干净文本嵌入表示 $x$ 和对抗文本嵌入表示 $x'$ 之间的马氏距离，并给出了 $x$ 和 $x'$ 之间的定量关系。然后，我们设计了一种简单有效的目标导向生成式提示注入策略 (G2PIA)，以找到满足特定约束条件的注入文本，从而近似地实现最佳攻击效果。尤其值得注意的是，我们的攻击方法是一种无需查询的黑盒攻击方法，计算成本低。在七种 LLM 模型和四个数据集上的实验结果表明了我们攻击方法的有效性。