LLM2D
PR-攻击:通过双层优化在大型语言模型中协调Prompt-RAG攻击以针对检索增强生成
PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization
作者: Yang Jiao, Xiaodong Wang, Kai Yang
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.07717v2

摘要

arXiv:2504.07717v2 通报类型: replace-cross 摘要:大规模语言模型(LLMs)在广泛的应用领域中展示了卓越的性能,例如医疗问答、数学科学和代码生成。然而,它们也表现出固有的局限性,如知识陈旧和幻觉的易感性。检索增强生成(RAG)作为一种解决这些问题的有希望的方法已经出现,但它也引入了新的脆弱性。最近的努力集中在RAG基础的大规模语言模型的安全性上,但现有的攻击方法面临着三个关键挑战:(1)当仅能注入少量中毒文本到知识数据库时,它们的有效性急剧下降;(2)它们缺乏足够的隐蔽性,因为许多攻击往往会被异常检测系统检测到,这会削弱它们的有效性;(3)它们依赖于基于启发式的生成方式来生成中毒文本,缺乏正式的优化框架和理论保证,这限制了它们的有效性和适用性。为了解决这些问题,我们提出了一种协调的Prompt-RAG攻击(PR-攻击),这是一种基于优化的攻击方法,可以在知识数据库中注入少量的中毒文本,同时在提示中嵌入一个后门触发器。当触发器被激活时,它会导致LLM生成预设计的响应以应对目标查询,而在其他语境中保持正常行为。这确保了攻击的高度有效性和隐蔽性。我们利用一个合理的优化框架将攻击生成过程建模为一个多层优化问题,以开发最优的中毒文本和触发器。在多种语言模型和数据集上的广泛实验表明,PR-攻击的有效性,即使在少量中毒文本的情况下也能实现高攻击成功率,并且比现有方法显著提高了隐蔽性。