摘要
arXiv:2504.11703v1 安全公告类型:跨平台
摘要: 大型语言模型 (LLM) 代理是一种新兴的 AI 系统,其中大型语言模型 (LLMs) 作为核心组件,利用多样化的工具来完成用户分配的任务。尽管它们具有巨大的潜力,但 LLM 代理也带来了重大的安全风险。在与外部世界互动时,它们可能会遇到攻击者的恶意命令,导致执行危险的操作。解决这一问题的一个有希望的方法是实施最小权限原则:允许仅完成任务所需的基本操作,同时阻止不必要的操作。然而,实现这一点颇具挑战性,因为它需要覆盖多样化的代理场景,同时保持安全性和实用性。
我们引入了 Progent,这是第一个针对 LLM 代理的权限控制机制。其核心是一种针对特定领域语言,灵活表达代理执行过程中应用的权限控制政策。这些政策对工具调用提供了细粒度的约束,决定何时允许工具调用,并指定如果不允许时的备选方案。这使代理开发者和用户能够为他们的特定用例设计合适的政策,并以确定的方式强制执行这些政策以确保安全。由于其模块化设计,集成 Progent 不会改变代理的内部结构,只需对代理的实现进行少量更改,从而增强了其实用性和广泛应用的潜力。为了自动化政策编写,我们利用 LLM 生成基于用户查询的政策,并动态更新这些政策以提高安全性和实用性。我们的全面评估显示,Progent 在三个不同的场景或基准(AgentDojo、ASB 和 AgentPoison)中实现了强大的安全性和高实用性。此外,我们进行了一项深入的分析,展示了其核心组件的有效性,并展示了其自动化政策生成在应对适应性攻击时的健壮性。