LLM2D

摘要

arXiv:2503.18666v2 宣布类型: 替换摘要：基于大语言模型（LLM）的代理正越来越多地部署到各种领域，自动化复杂决策和任务执行。然而，它们的自主性引入了安全风险，包括安全漏洞、法律违规和意外有害行为。现有的缓解方法，如基于模型的安全措施和早期执行策略，在鲁棒性、可解释性和适应性方面存在不足。为了解决这些挑战，我们提出了AgentSpec，这是一种轻量级的领域特定语言，用于在LLM代理上指定和执行运行时约束。通过AgentSpec，用户可以定义结构化的规则，这些规则包含触发器、谓词和执行机制，以确保代理在预定义的安全边界内运行。我们跨多个领域实现了AgentSpec，包括代码执行、具身代理和自动驾驶领域，展示了其适应性和有效性。我们的评估表明，AgentSpec成功阻止了90%以上代码代理案例中的不安全执行，消除了所有具身代理任务中的有害行为，并强制100%的自动驾驶车辆（AVs）遵守规定。尽管AgentSpec提供了强大的安全保证，但在计算上仍然轻量级，开销在毫秒级别。通过结合可解释性、模块化和效率，AgentSpec为在各种应用中强制执行LLM代理安全提供了一种实用且可扩展的解决方案。我们还使用LLMs自动生成规则，并评估其有效性。我们的评估表明，由OpenAI生成的规则在具身代理中的精确度为95.56%，召回率为70.96%，成功识别了87.26%的风险代码，并在8种情景中的5种情况下阻止了AVs违法。