LLM2D

摘要

arXiv:2503.18813v1 安全类型: cross 摘要: 大型语言模型（LLMs）越来越多地被部署在与外部环境交互的代理系统中。然而，当处理不受信任的数据时，LLM代理容易受到提示注入攻击的影响。在本文中，我们提出了一种名为CaMeL的稳健防御方法，它在LLM周围创建一个防护系统层，即使底层模型可能容易受到攻击，也能确保其安全性。为了运行，CaMeL明确地从（受信任的）查询中提取控制流和数据流；因此，LLM检索的任何不受信任的数据都无法影响程序流。为了进一步提高安全性，CaMeL依赖于一种能力的概念，以防止通过未经授权的数据流泄露私人数据。我们通过在最近的代理安全基准AgentDojo [NeurIPS 2024]中解决67%的任务，证明了CaMeL的有效性。