LLM2D
虚晃一枪再进攻:基于注意力机制的 LLM 越狱与防护策略
Feint and Attack: Attention-Based Strategies for Jailbreaking and Protecting LLMs
作者: Rui Pu, Chaozhuo Li, Rui Ha, Zejian Chen, Litian Zhang, Zheng Liu, Lirong Qiu, Xi Zhang
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16327v1

摘要

越狱攻击可通过诱导大型语言模型 (LLM) 生成有害内容来利用其漏洞。最常见的攻击方法是构造语义模糊的提示来混淆和误导 LLM。为了评估安全性并揭示 LLM 的输入提示和输出之间的内在关系,本文引入了注意力权重分布来分析其根本原因。通过使用统计分析方法,定义了一些新的指标来更好地描述注意力权重分布,例如敏感词的注意力强度 (Attn_SensWords)、基于注意力的上下文依赖性得分 (Attn_DepScore) 和注意力分散熵 (Attn_Entropy)。利用这些指标的不同特征,并受军事策略“虚张声势”的启发,提出了一种名为基于注意力的攻击 (ABA) 的有效越狱攻击策略。在 ABA 中,采用嵌套攻击提示来转移 LLM 的注意力分布。通过这种方式,输入中更多无害的部分可以用来吸引 LLM 的注意力。此外,受 ABA 的启发,还提出了一种名为基于注意力的防御 (ABD) 的有效防御策略。与 ABA 相比,ABD 可用于通过校准输入提示的注意力分布来增强 LLM 的鲁棒性。一些对比实验已经证明了 ABA 和 ABD 的有效性。因此,ABA 和 ABD 都可以用来评估 LLM 的安全性。对比实验结果也从逻辑上解释了注意力权重分布会对 LLM 的输出产生巨大影响。