LLM2D
设计上抵御提示注入
Defeating Prompt Injections by Design
作者: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tram\`er
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18813v1

摘要

arXiv:2503.18813v1 安全类型: cross 摘要: 大型语言模型(LLMs)越来越多地被部署在与外部环境交互的代理系统中。然而,当处理不受信任的数据时,LLM代理容易受到提示注入攻击的影响。在本文中,我们提出了一种名为CaMeL的稳健防御方法,它在LLM周围创建一个防护系统层,即使底层模型可能容易受到攻击,也能确保其安全性。为了运行,CaMeL明确地从(受信任的)查询中提取控制流和数据流;因此,LLM检索的任何不受信任的数据都无法影响程序流。为了进一步提高安全性,CaMeL依赖于一种能力的概念,以防止通过未经授权的数据流泄露私人数据。我们通过在最近的代理安全基准AgentDojo [NeurIPS 2024]中解决67%的任务,证明了CaMeL的有效性。