摘要
arXiv:2503.24191v1 安全公告类型: cross
摘要: 内容警告:本文可能包含由大规模语言模型(LLMs)生成的不安全或有害内容,可能会引起读者的反感。大规模语言模型(LLMs)广泛用作通过结构化输出API的工具平台,以确保语法合规性,从而实现与现有软件(如代理系统)的稳定集成。然而,由语法引导的结构化输出功能提供了重大的安全漏洞。在本工作中,我们揭示了一个与传统数据面漏洞正交的关键控制面攻击面。我们引入了约束解码攻击(CDA),这是一种新型逃逸类攻击,利用结构化输出约束绕过安全机制。不同于以往专注于输入提示的攻击,CDA 通过将恶意意图嵌入到模式级语法规则(控制面)中,同时保持无害的表面提示(数据面)来运作。我们以一个概念验证链条枚举攻击实例化了这一点,在五项安全基准中实现了96.2%的攻击成功率,包括专有的和开源权重大语言模型(LLM),包括GPT-4o和Gemini-2.0-flash。我们的研究成果识别了当前大语言模型架构中的一个关键安全盲点,并敦促在大语言模型安全性方面进行范式转变以应对控制面漏洞,因为当前机制仅关注数据面威胁,使关键系统处于风险中。