摘要
arXiv:2411.18948v2 通知类型: 替换交叉
摘要:检索增强生成(RAG)通过从相关的知识数据库中检索信息来丰富LLM的输入,使其能够生成更准确和上下文相关性的响应。值得注意的是,知识数据库来自诸如Wikipedia等公开渠道,不可避免地引入了新的攻击面。RAG污染涉及将恶意文本注入知识数据库,最终导致生成攻击者的目标响应(也称为被污染的响应)。然而,目前用于检测此类污染攻击的方法仍然有限。我们在此工作中力求弥补这一空白。特别地,我们引入了RevPRAG,这是一种灵活且自动化的检测管道,利用LLM的激活来检测被污染的响应。我们的研究发现,在生成正确响应与被污染响应时,LLM的激活表现出不同的模式。我们在多个基准数据集和RAG架构上的结果显示,我们的方法可以实现98%的真实阳性率,同时保持假阳性率接近1%。