LLM2D

摘要

检索增强生成 (RAG) 在医疗保健、金融和法律等知识密集型领域已被证明可以提高大型语言模型 (LLMs) 的性能。给定一个查询，RAG 从语料库中检索相关文档，并将它们集成到 LLMs 的生成过程中。在本研究中，我们研究了 RAG 的对抗鲁棒性，重点关注检索系统的检查。首先，在语料库、检索器、查询和目标信息的 225 种不同设置组合中，我们表明检索系统容易受到医疗问答中的通用中毒攻击。在这样的攻击中，攻击者生成包含广泛目标信息的毒化文档，例如个人身份信息。当这些毒化文档被插入语料库时，只要使用攻击者指定的查询，任何用户都可以准确地检索到它们。为了理解这种漏洞，我们发现从查询嵌入到毒化文档嵌入的偏差往往遵循一种模式，其中毒化文档与查询之间的高相似性得以保留，从而实现精确检索。基于这些发现，我们开发了一种新的基于检测的防御措施，以确保 RAG 的安全使用。通过涵盖各种问答领域的广泛实验，我们观察到我们提出的方法在几乎所有情况下都始终如一地实现了出色的检测率。