摘要
arXiv:2502.08966v1 类别:交叉领域
摘要:工具基代理系统(TBAS)允许语言模型(LMs)利用外部工具进行超出其独立能力的任务,例如搜索网站、预订航班或进行金融交易。然而,这些工具大大增加了提示注入攻击的风险,在这种攻击中,恶意内容劫持语言模型代理以泄露机密数据或触发有害行为。现有的防御措施(如OpenAI的GPTs)要求用户在每次调用工具时进行确认,这给用户带来了沉重的负担。我们引入了稳健的TBAS(RTBAS),它能够自动检测并执行保护完整性和保密性的工具调用,只有在无法保证这些保护措施时才需要用户确认。RTBAS将信息流控制适应TBAS所面临的独特挑战。我们提出了两种新的依赖筛选器,使用LM作为法官和基于注意的显著性,以克服这些挑战。在AgentDojo提示注入基准测试上的实验结果表明,当受到攻击时,RTBAS可以防止所有有针对性的攻击,仅在任务实用性上损失2%,进一步的测试证实了其检测细微和直接隐私泄露以接近理想的性能能力。