摘要
arXiv:2505.07546v1 类型: cross
摘要: 通过将检索到的文档中的外部知识整合到其中,检索增强生成(RAG)框架能够提高大型语言模型(LLMs)的准确性,从而克服模型静态固有知识的局限性。然而,这些系统容易受到通过引入与查询语义相似但具有敌意的文档来操纵检索过程的对抗性攻击的影响。值得注意的是,尽管这些敌意文档看起来类似于查询,但它们与检索集中良性文档的相似度较弱。因此,我们提出了一种简单有效的基于图的对抗性文档攻击重排序框架(GRADA),旨在在保持检索质量的同时显著降低对手的成功率。我们的研究通过在五个LLM(GPT-3.5-Turbo、GPT-4o、Llama3.1-8b、Llama3.1-70b和Qwen2.5-7b)上进行实验,评估了我们方法的有效性。我们使用三个数据集来评估性能,结果表明,来自Natural Questions数据集的结果在保持准确性损失最小的情况下,攻击成功率最多可降低80%。