LLM2D

摘要

arXiv:2504.11703v1 安全公告类型:跨平台摘要: 大型语言模型 (LLM) 代理是一种新兴的 AI 系统，其中大型语言模型 (LLMs) 作为核心组件，利用多样化的工具来完成用户分配的任务。尽管它们具有巨大的潜力，但 LLM 代理也带来了重大的安全风险。在与外部世界互动时，它们可能会遇到攻击者的恶意命令，导致执行危险的操作。解决这一问题的一个有希望的方法是实施最小权限原则：允许仅完成任务所需的基本操作，同时阻止不必要的操作。然而，实现这一点颇具挑战性，因为它需要覆盖多样化的代理场景，同时保持安全性和实用性。我们引入了 Progent，这是第一个针对 LLM 代理的权限控制机制。其核心是一种针对特定领域语言，灵活表达代理执行过程中应用的权限控制政策。这些政策对工具调用提供了细粒度的约束，决定何时允许工具调用，并指定如果不允许时的备选方案。这使代理开发者和用户能够为他们的特定用例设计合适的政策，并以确定的方式强制执行这些政策以确保安全。由于其模块化设计，集成 Progent 不会改变代理的内部结构，只需对代理的实现进行少量更改，从而增强了其实用性和广泛应用的潜力。为了自动化政策编写，我们利用 LLM 生成基于用户查询的政策，并动态更新这些政策以提高安全性和实用性。我们的全面评估显示，Progent 在三个不同的场景或基准（AgentDojo、ASB 和 AgentPoison）中实现了强大的安全性和高实用性。此外，我们进行了一项深入的分析，展示了其核心组件的有效性，并展示了其自动化政策生成在应对适应性攻击时的健壮性。