LLM2D
系统提示 poisoning:对大型语言模型的持久攻击,超越用户注入
System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection
作者: Jiawei Guo, Haipeng Cai
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06493v1

摘要

arXiv:2505.06493v1 安全公告类型: cross 摘要:大型语言模型(LLMs)因其令人印象深刻的生成能力而在各种应用中得到了广泛应用。它们的即插即用特性使得开发者和最终用户可以通过简单的提示与这些模型进行交互。然而,随着LLMs在不同领域的各种系统中越来越集成,对其安全性的担忧也在增加。现有研究主要集中在来自用户提示(例如提示注入攻击)和模型输出(例如模型逆向攻击)的威胁,而系统提示的安全性则被很大程度上忽视。这项工作填补了这一关键缺口。我们介绍了系统提示中毒,这是一种针对LLMs的新攻击向量,与传统的用户提示注入不同,它会毒害系统提示,从而持续影响所有后续用户交互和模型响应。我们系统地研究了各种中毒场景下的四种实用攻击策略。通过在生成性和推理型LLMs上的演示,我们展示了在不使用破解技术的情况下,系统提示中毒是极其可行的,并且在一系列广泛的任务中(包括数学、编程、逻辑推理和自然语言处理)都具有有效性。重要的是,我们的发现表明,即使用户提示采用了高级提示技术(如思考链,CoT),这种攻击仍然有效。我们还展示了诸如CoT和检索增强生成(RAG)等技术,这些技术在广泛的任务中已被证明可有效改善LLM性能,但它们在系统提示中毒的影响下显著削弱了其有效性。