LLM2D
RevPRAG:通过LLM激活分析揭示检索增强生成中的中毒攻击
RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation Analysis
作者: Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2411.18948v2

摘要

arXiv:2411.18948v2 通知类型: 替换交叉 摘要:检索增强生成(RAG)通过从相关的知识数据库中检索信息来丰富LLM的输入,使其能够生成更准确和上下文相关性的响应。值得注意的是,知识数据库来自诸如Wikipedia等公开渠道,不可避免地引入了新的攻击面。RAG污染涉及将恶意文本注入知识数据库,最终导致生成攻击者的目标响应(也称为被污染的响应)。然而,目前用于检测此类污染攻击的方法仍然有限。我们在此工作中力求弥补这一空白。特别地,我们引入了RevPRAG,这是一种灵活且自动化的检测管道,利用LLM的激活来检测被污染的响应。我们的研究发现,在生成正确响应与被污染响应时,LLM的激活表现出不同的模式。我们在多个基准数据集和RAG架构上的结果显示,我们的方法可以实现98%的真实阳性率,同时保持假阳性率接近1%。