LLM2D

摘要

arXiv:2411.18948v3 通告类型: replace-cross 摘要: 通过从相关知识数据库中检索信息来丰富LLMs的输入，检索增强生成（RAG）使它们能够生成更准确且上下文相关的响应。值得注意的是，这种知识数据库来源于公开渠道如维基百科，不可避免地引入了新的攻击面。RAG投毒涉及将恶意文本注入知识数据库，最终生成攻击者的靶响应（也称为中毒响应）。然而，目前检测此类投毒攻击的方法相对有限。我们旨在通过本文填补这一空白。特别地，我们引入了RevPRAG，一个灵活且自动化的检测管道，利用LLMs的激活来进行中毒响应检测。我们的调查揭示了LLMs在生成正确响应与中毒响应时激活模式的不同之处。在多个基准数据集和RAG架构上的实验结果显示，我们的方法能够实现98%的真实正率，同时保持假正率接近1%。