LLM2D
AGrail: 一个有效的自适应安全检测终身智能体防护栏
AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection
作者: Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen, Chaowei Xiao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11448v1

摘要

arXiv:2502.11448v1 安全类型: 新颖 摘要: 大规模语言模型(LLMs)的快速发展使其能够作为自主代理,在动态环境中处理复杂的任务。这些LLMs展示了强大的问题解决能力和对多变场景的适应性。然而,作为代理使用也会带来显著的风险,包括任务特定风险,这类风险由代理管理员根据特定任务的需求和约束来识别,以及系统风险,这类风险源自于设计或交互中的漏洞,可能会损害信息的机密性、完整性和可用性(CIA),并引发安全风险。现有的防御机构无法适应性地有效地缓解这些风险。在本文中,我们提出了AGrail,这是一种终生代理护栏,旨在增强LLM代理的安全性,其特点是自适应的安全检查生成、有效的安全检查优化以及工具的兼容性和灵活性。广泛的实验表明,AGrail不仅能够针对任务特定和系统风险取得强大的性能,而且还能够在不同LLM代理的任务之间表现出可迁移性。