LLM2D

摘要

arXiv:2501.18636v1 安全类型: 交叉摘要: 检索增强生成（RAG）中的索引-检索-生成范式通过将外部知识集成到大型语言模型（LLMs）中，在解决知识密集型任务方面取得了高度成功。然而，外部且未经验证的知识的融入增加了LLMs的脆弱性，因为攻击者可以通过操纵知识来执行攻击任务。在这篇论文中，我们介绍了名为SafeRAG的基准，旨在评估RAG的安全性。首先，我们将攻击任务分类为黄金噪声、跨上下文冲突、软广告和白帽子拒绝服务。接下来，我们主要通过手动构造SafeRAG数据集来为每个任务构建RAG安全评估数据集。然后，我们利用SafeRAG数据集模拟RAG可能遇到的各种攻击场景。针对14个代表性RAG组件进行的实验表明，RAG对所有攻击任务都表现出显著的脆弱性，即使是最明显的攻击任务也可以轻易绕过现有的检索器、过滤器或高级LLMs，导致RAG服务质量的下降。代码可在以下地址获得：https://github.com/IAAR-Shanghai/SafeRAG。