LLM2D

摘要

arXiv:2502.09809v1 公告类型: cross 摘要：将工具使用集成到大型语言模型（LLMs）中，使具备现实世界影响的自主系统成为可能。与此同时，与独立运行的LLMs不同，被篡改的代理可以执行更具重大影响的恶意工作流，这表现在其工具使用能力上。我们提出了一种名为AgentGuard的框架，该框架能够自主发现并验证不安全的工具使用工作流，然后生成安全约束来限制代理的行为，从而在部署时实现基本的安全保障。AgentGuard利用LLM调度器固有的能力——工具功能知识、可扩展且真实的流程生成以及工具执行权限——充当其自身的安全性评估器。该框架通过四个阶段运作：识别不安全的工作流、在实际执行中验证它们、生成安全约束，以及验证约束的有效性。其输出包括不安全工作流的评估报告、测试用例以及验证过的约束，这些可以用于多种安全应用。我们通过实验实证性地展示了AgentGuard的可行性。通过这项探索性工作，我们希望激发对LLM代理进行标准化测试和强化程序的建立，以增强其在实际应用中的可信度。