LLM2D

摘要

arXiv:2411.18948v2 通知类型: 替换交叉摘要：检索增强生成（RAG）通过从相关的知识数据库中检索信息来丰富LLM的输入，使其能够生成更准确和上下文相关性的响应。值得注意的是，知识数据库来自诸如Wikipedia等公开渠道，不可避免地引入了新的攻击面。RAG污染涉及将恶意文本注入知识数据库，最终导致生成攻击者的目标响应（也称为被污染的响应）。然而，目前用于检测此类污染攻击的方法仍然有限。我们在此工作中力求弥补这一空白。特别地，我们引入了RevPRAG，这是一种灵活且自动化的检测管道，利用LLM的激活来检测被污染的响应。我们的研究发现，在生成正确响应与被污染响应时，LLM的激活表现出不同的模式。我们在多个基准数据集和RAG架构上的结果显示，我们的方法可以实现98%的真实阳性率，同时保持假阳性率接近1%。