摘要
arXiv:2504.07717v1 声明类型:交叉
摘要:大型语言模型(LLMs)在各种应用中都表现出色,例如医学问答、数学科学和代码生成。然而,它们也存在固有的限制,如过时的知识和容易出现幻觉。检索增强生成(RAG)作为一种有望解决这些问题的方法已经出现,但同时也引入了新的脆弱性。最近的努力集中在基于RAG的LLMs的安全性方面,但现有的攻击方法面临三个关键挑战:(1)当只能向知识数据库注入少量恶意文本时,其有效性会急剧下降;(2)它们缺乏足够的隐蔽性,因为这些攻击往往会被异常检测系统检测到,这损害了其有效性;(3)它们依赖启发式方法生成恶意文本,缺乏正式的优化框架和理论保证,这限制了其有效性及其应用范围。为了解决这些问题,我们提出了协调的提示-RAG攻击(PR-攻击),这是一种新颖的优化驱动攻击,可以在知识数据库中引入少量恶意文本,并在提示中嵌入后门触发器。当触发器被激活时,它会促使LLM对目标查询生成预设的响应,而在其他情况下则保持正常行为。这既确保了高效果性又具有高度隐蔽性。我们通过利用原理明确的优化框架将攻击生成过程形式化为多层次优化问题,以开发最优的恶意文本和触发器。在不同LLM和数据集上进行的广泛实验表明,PR-攻击的有效性,即使在只能注入少量恶意文本的情况下也能实现高攻击成功率,并且在隐蔽性上也显著优于现有方法。