LLM2D

摘要

arXiv:2410.14827v2 Announce 类型: replace-cross 摘要：在提示注入攻击中，攻击者会在原始提示中注入一个新的提示，旨在让LLM遵循注入的提示执行攻击者选择的任务。现有的攻击主要关注如何将注入的提示自然地融入原始提示中，而不改变LLM本身。我们的实验显示，这些攻击取得了一定的成功，但仍有很大的改进空间。在这项工作中，我们展示了攻击者可以通过污染LLM的对齐过程来提升提示注入攻击的成功率。具体而言，我们提出了PoisonedAlign方法，这是一种战略性地创建污染对齐样本的方法。即使使用我们的方法污染对齐数据的一小部分，对齐后的LLM在保持其基础能力的同时，变得更加容易受到提示注入攻击的影响。代码可在 https://github.com/Sadcardation/PoisonedAlign 获取。