LLM2D
AgentSpec: 可定制的运行时 enforcement 以确保 LLM 代理的安全和可靠性
AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents
作者: Haoyu Wang, Christopher M. Poskitt, Jun Sun
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2503.18666v2

摘要

arXiv:2503.18666v2 宣布类型: 替换 摘要:基于大语言模型(LLM)的代理正越来越多地部署到各种领域,自动化复杂决策和任务执行。然而,它们的自主性引入了安全风险,包括安全漏洞、法律违规和意外有害行为。现有的缓解方法,如基于模型的安全措施和早期执行策略,在鲁棒性、可解释性和适应性方面存在不足。为了解决这些挑战,我们提出了AgentSpec,这是一种轻量级的领域特定语言,用于在LLM代理上指定和执行运行时约束。通过AgentSpec,用户可以定义结构化的规则,这些规则包含触发器、谓词和执行机制,以确保代理在预定义的安全边界内运行。我们跨多个领域实现了AgentSpec,包括代码执行、具身代理和自动驾驶领域,展示了其适应性和有效性。我们的评估表明,AgentSpec成功阻止了90%以上代码代理案例中的不安全执行,消除了所有具身代理任务中的有害行为,并强制100%的自动驾驶车辆(AVs)遵守规定。尽管AgentSpec提供了强大的安全保证,但在计算上仍然轻量级,开销在毫秒级别。通过结合可解释性、模块化和效率,AgentSpec为在各种应用中强制执行LLM代理安全提供了一种实用且可扩展的解决方案。我们还使用LLMs自动生成规则,并评估其有效性。我们的评估表明,由OpenAI生成的规则在具身代理中的精确度为95.56%,召回率为70.96%,成功识别了87.26%的风险代码,并在8种情景中的5种情况下阻止了AVs违法。