摘要
arXiv:2502.08966v2 通知类型: 替换交叉
摘要: 工具基智能体系统 (TBAS) 允许语言模型 (LMs) 使用外部工具来完成超出其独立能力的任务,例如搜索网站、预订航班或进行金融交易。然而,这些工具大大增加了提示注入攻击的风险,恶意内容会劫持 LM 智能体以泄露敏感数据或触发有害行动。现有的防御措施(如 OpenAI GPT)要求在每次调用工具前都要进行用户确认,给用户带来了沉重的负担。我们引入了稳健的 TBAS(RTBAS),该系统能够自动检测并执行保持完整性和保密性的工具调用,仅在这些保障不能得到保证时才需要用户确认。RTBAS 适应了 TBAS 带来的独特挑战,采用信息流控制。我们提出了两种新的依赖性筛选器,使用 LM 作为法官和基于注意力的重要度筛选,以克服这些挑战。在 AgentDojo 提示注入基准测试上的实验结果显示,当受到攻击时,RTBAS 能够防止所有针对攻击,且仅在任务实用性上损失 2%,此外的测试进一步证实了其在检测细微和直接隐私泄露方面接近完美性能的能力。