摘要
arXiv:2501.18636v1 安全类型: 交叉
摘要: 检索增强生成(RAG)中的索引-检索-生成范式通过将外部知识集成到大型语言模型(LLMs)中,在解决知识密集型任务方面取得了高度成功。然而,外部且未经验证的知识的融入增加了LLMs的脆弱性,因为攻击者可以通过操纵知识来执行攻击任务。在这篇论文中,我们介绍了名为SafeRAG的基准,旨在评估RAG的安全性。首先,我们将攻击任务分类为黄金噪声、跨上下文冲突、软广告和白帽子拒绝服务。接下来,我们主要通过手动构造SafeRAG数据集来为每个任务构建RAG安全评估数据集。然后,我们利用SafeRAG数据集模拟RAG可能遇到的各种攻击场景。针对14个代表性RAG组件进行的实验表明,RAG对所有攻击任务都表现出显著的脆弱性,即使是最明显的攻击任务也可以轻易绕过现有的检索器、过滤器或高级LLMs,导致RAG服务质量的下降。代码可在以下地址获得:https://github.com/IAAR-Shanghai/SafeRAG。