LLM2D
模仿熟悉之事:在LLM工具学习系统中进行信息窃取攻击的动态命令生成
Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System
作者: Ziyou Jiang, Mingyang Li, Guowei Yang, Junjie Wang, Yuekai Huang, Zhiyuan Chang, Qing Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11358v1

摘要

arXiv:2502.11358v1 宣告类型: 新 摘要: 信息盗取攻击对大型语言模型(LLM)工具学习系统构成了显著的风险。对手可以通过被控制的工具注入恶意命令,操控LLM将敏感信息发送到这些工具中,从而导致潜在的隐私泄露。然而,现有的攻击方法是黑盒导向的,并且依赖于静态命令,无法灵活适应用户查询和工具调用链的变化。这使得恶意命令更容易被LLM检测到,导致攻击失败。在这篇论文中,我们提出了AutoCMD,一种针对LLM工具学习系统的动态攻击命令生成方法。受到模仿熟悉事物的概念启发,AutoCMD能够通过在开源系统上进行学习并用目标系统示例进行强化,来推断工具链中上游工具利用的信息,从而生成更具针对性的盗取信息的命令。评估结果显示,AutoCMD在信息盗取的成功率($ASR_{Theft}$)上比基线方法高出13.2%,并且可以普遍应用于新的工具学习系统以揭示其信息泄露的风险。我们还设计了四种防御方法,以有效地保护工具学习系统免受此类攻击。