LLM2D

摘要

arXiv:2503.24191v1 安全公告类型: cross 摘要: 内容警告：本文可能包含由大规模语言模型（LLMs）生成的不安全或有害内容，可能会引起读者的反感。大规模语言模型（LLMs）广泛用作通过结构化输出API的工具平台，以确保语法合规性，从而实现与现有软件（如代理系统）的稳定集成。然而，由语法引导的结构化输出功能提供了重大的安全漏洞。在本工作中，我们揭示了一个与传统数据面漏洞正交的关键控制面攻击面。我们引入了约束解码攻击（CDA），这是一种新型逃逸类攻击，利用结构化输出约束绕过安全机制。不同于以往专注于输入提示的攻击，CDA 通过将恶意意图嵌入到模式级语法规则（控制面）中，同时保持无害的表面提示（数据面）来运作。我们以一个概念验证链条枚举攻击实例化了这一点，在五项安全基准中实现了96.2%的攻击成功率，包括专有的和开源权重大语言模型（LLM），包括GPT-4o和Gemini-2.0-flash。我们的研究成果识别了当前大语言模型架构中的一个关键安全盲点，并敦促在大语言模型安全性方面进行范式转变以应对控制面漏洞，因为当前机制仅关注数据面威胁，使关键系统处于风险中。