摘要
arXiv:2505.08728v1 宣告类型: cross
摘要:检索增强生成 (RAG) 已成为面向用户的 NLP 应用的行业标准,提供在无需重新训练或微调大语言模型 (LLMs) 的情况下集成数据的能力。这种能力提高了响应的质量和准确性,但也引入了新的安全和隐私挑战,尤其是当敏感数据被集成时。随着 RAG 的快速采用,保障数据和服务的安全已经成为当务之急。本文首先回顾了 RAG 管道的漏洞,并从数据预处理、数据存储管理和与大语言模型的集成方面概述了攻击面。然后,将识别的风险与其相应的缓解措施进行配对,在结构化的概述中进行说明。第二步,本文开发了一个框架,该框架将 RAG 特定的安全考虑与现有的通用安全指南、行业标准和最佳实践相结合。所提出的框架旨在指导稳健、合规、安全和值得信赖的 RAG 系统的实现。