摘要
arXiv:2502.09809v1 公告类型: cross
摘要:将工具使用集成到大型语言模型(LLMs)中,使具备现实世界影响的自主系统成为可能。与此同时,与独立运行的LLMs不同,被篡改的代理可以执行更具重大影响的恶意工作流,这表现在其工具使用能力上。我们提出了一种名为AgentGuard的框架,该框架能够自主发现并验证不安全的工具使用工作流,然后生成安全约束来限制代理的行为,从而在部署时实现基本的安全保障。AgentGuard利用LLM调度器固有的能力——工具功能知识、可扩展且真实的流程生成以及工具执行权限——充当其自身的安全性评估器。该框架通过四个阶段运作:识别不安全的工作流、在实际执行中验证它们、生成安全约束,以及验证约束的有效性。其输出包括不安全工作流的评估报告、测试用例以及验证过的约束,这些可以用于多种安全应用。我们通过实验实证性地展示了AgentGuard的可行性。通过这项探索性工作,我们希望激发对LLM代理进行标准化测试和强化程序的建立,以增强其在实际应用中的可信度。