LLM2D

摘要

arXiv:2502.11448v2 公告类型: 新增摘要：大型语言模型（LLMs）的迅速发展使其能够在动态环境中作为自主代理处理复杂的任务。这些LLMs展示了强大的问题解决能力和对多变场景的适应性。然而，作为代理使用也会带来显著的风险，包括特定任务风险，这是代理管理员根据具体的任务要求和约束条件识别的，以及系统风险，这种风险源自其设计或交互中的漏洞，可能会危及信息的机密性、完整性和可用性（CIA），从而引发安全风险。现有的防御机构无法适应性和有效地减轻这些风险。在本文中，我们提出了AGrail，一个终身代理护栏，以增强LLM代理的安全性，其特点是适应性安全检查生成、有效的安全检查优化以及工具兼容性和灵活性。广泛的实验表明，AGrail不仅能够有效地应对特定任务和系统风险，而且能够在不同LLM代理的任务之间展示可移植性。