摘要
arXiv:2502.12630v1 通报类型:横跨多个领域的研究
摘要:本文提出了一种评估大型语言模型(LLMs)对抗提示泄漏的新颖方法——系统级提示或专有配置的暴露。我们定义提示泄漏是对安全部署LLMs的关键威胁,并引入了一种使用代理团队测试LLMs鲁棒性的框架。利用AG2(以前称为AutoGen),我们实现了一个多代理系统,其中合作代理被赋予探测和利用目标LLM以揭示其提示的任务。
借鉴传统加密安全定义,我们将一个提示泄漏安全的系统定义为一个攻击者无法区分两类代理的系统:一类是初始化为原始提示的,另一类是去除了所有敏感信息的提示。在安全系统中,代理的输出对攻击者来说不可区分,从而确保敏感信息的安全。这种借鉴加密安全的标准为评估和设计安全的LLMs提供了严格的标准。
本文建立了对抗性测试提示泄漏的系统方法,填补了自动化威胁建模与实际LLM安全之间的差距。
您可以在GitHub上找到我们关于提示泄漏探测的实现。