摘要
arXiv:2410.14827v2 Announce 类型: replace-cross
摘要:在提示注入攻击中,攻击者会在原始提示中注入一个新的提示,旨在让LLM遵循注入的提示执行攻击者选择的任务。现有的攻击主要关注如何将注入的提示自然地融入原始提示中,而不改变LLM本身。我们的实验显示,这些攻击取得了一定的成功,但仍有很大的改进空间。在这项工作中,我们展示了攻击者可以通过污染LLM的对齐过程来提升提示注入攻击的成功率。具体而言,我们提出了PoisonedAlign方法,这是一种战略性地创建污染对齐样本的方法。即使使用我们的方法污染对齐数据的一小部分,对齐后的LLM在保持其基础能力的同时,变得更加容易受到提示注入攻击的影响。代码可在 https://github.com/Sadcardation/PoisonedAlign 获取。