摘要
arXiv:2502.13527v1 安全类型:跨域
摘要:大规模语言模型(LLMs)的应用带来了显著的应用,但也引入了严重的安全威胁,尤其是来自操纵输出生成的越狱攻击。这些攻击利用提示工程和logit操纵,使模型偏向有害内容,促使LLM提供商实施过滤和安全性对齐策略。我们研究了LLMs的安全机制及其近期应用,揭示了一种新的威胁模型,针对结构化输出接口,允许攻击者在LLM生成过程中操纵内部logit,仅需API访问权限。为了展示这一威胁模型,我们引入了一个名为AttackPrefixTree(APT)的黑盒攻击框架。APT利用结构化输出接口动态构建攻击模式。通过利用模型的安全拒绝响应前缀和潜在有害输出,APT有效地绕过了安全性措施。在基准数据集上的实验表明,该方法的攻击成功率高于现有方法。这项工作突显了LLM提供商需要增强安全协议以解决由安全模式与结构化输出交互引发的漏洞的紧迫需求。