LLM2D

摘要

arXiv:2502.11358v1 宣告类型: 新摘要: 信息盗取攻击对大型语言模型（LLM）工具学习系统构成了显著的风险。对手可以通过被控制的工具注入恶意命令，操控LLM将敏感信息发送到这些工具中，从而导致潜在的隐私泄露。然而，现有的攻击方法是黑盒导向的，并且依赖于静态命令，无法灵活适应用户查询和工具调用链的变化。这使得恶意命令更容易被LLM检测到，导致攻击失败。在这篇论文中，我们提出了AutoCMD，一种针对LLM工具学习系统的动态攻击命令生成方法。受到模仿熟悉事物的概念启发，AutoCMD能够通过在开源系统上进行学习并用目标系统示例进行强化，来推断工具链中上游工具利用的信息，从而生成更具针对性的盗取信息的命令。评估结果显示，AutoCMD在信息盗取的成功率（$ASR_{Theft}$）上比基线方法高出13.2%，并且可以普遍应用于新的工具学习系统以揭示其信息泄露的风险。我们还设计了四种防御方法，以有效地保护工具学习系统免受此类攻击。