LLM2D
RevPRAG: 通过LLM激活分析揭示检索增强生成中的投毒攻击
RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation Analysis
作者: Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2411.18948v3

摘要

arXiv:2411.18948v3 通告类型: replace-cross 摘要: 通过从相关知识数据库中检索信息来丰富LLMs的输入,检索增强生成(RAG)使它们能够生成更准确且上下文相关的响应。值得注意的是,这种知识数据库来源于公开渠道如维基百科,不可避免地引入了新的攻击面。RAG投毒涉及将恶意文本注入知识数据库,最终生成攻击者的靶响应(也称为中毒响应)。然而,目前检测此类投毒攻击的方法相对有限。我们旨在通过本文填补这一空白。特别地,我们引入了RevPRAG,一个灵活且自动化的检测管道,利用LLMs的激活来进行中毒响应检测。我们的调查揭示了LLMs在生成正确响应与中毒响应时激活模式的不同之处。在多个基准数据集和RAG架构上的实验结果显示,我们的方法能够实现98%的真实正率,同时保持假正率接近1%。