LLM2D
从盟友到对手:通过对抗性注入操纵大语言模型的工具调用
From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection
作者: Haowei Wang, Rupeng Zhang, Junjie Wang, Mingyang Li, Yuekai Huang, Dandan Wang, Qing Wang
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2412.10198v2

摘要

arXiv:2412.10198v2 宣告类型: replace-cross 摘要:工具调用通过将外部工具集成到大型语言模型(LLM)中,显著增强了其在多种任务中的功能。然而,这种集成也引入了新的安全漏洞,特别是在LLM的工具调度机制方面,这些机制尚未受到广泛研究。为了填补这一空白,我们提出了ToolCommander,这是一种新型框架,旨在通过对抗性工具注入来利用LLM工具调用系统的漏洞。该框架采用了精心设计的两阶段攻击策略。首先,它注入恶意工具以收集用户查询,然后根据窃取的信息动态更新注入的工具以增强后续攻击。这些阶段使ToolCommander能够执行隐私窃取、发起拒绝服务攻击,并且甚至通过触发未计划的工具调用来操控商业竞争。值得注意的是,隐私窃取的ASR达到91.67%,拒绝服务和未计划的工具调用在某些情况下达到100%。我们的研究证明,这些漏洞可能导致远超过简单滥用工具调用系统的情况,强调了迫切需要采取稳健的防御策略来保护LLM工具调用系统。