LLM2D

摘要

越狱攻击可通过诱导大型语言模型 (LLM) 生成有害内容来利用其漏洞。最常见的攻击方法是构造语义模糊的提示来混淆和误导 LLM。为了评估安全性并揭示 LLM 的输入提示和输出之间的内在关系，本文引入了注意力权重分布来分析其根本原因。通过使用统计分析方法，定义了一些新的指标来更好地描述注意力权重分布，例如敏感词的注意力强度 (Attn_SensWords)、基于注意力的上下文依赖性得分 (Attn_DepScore) 和注意力分散熵 (Attn_Entropy)。利用这些指标的不同特征，并受军事策略“虚张声势”的启发，提出了一种名为基于注意力的攻击 (ABA) 的有效越狱攻击策略。在 ABA 中，采用嵌套攻击提示来转移 LLM 的注意力分布。通过这种方式，输入中更多无害的部分可以用来吸引 LLM 的注意力。此外，受 ABA 的启发，还提出了一种名为基于注意力的防御 (ABD) 的有效防御策略。与 ABA 相比，ABD 可用于通过校准输入提示的注意力分布来增强 LLM 的鲁棒性。一些对比实验已经证明了 ABA 和 ABD 的有效性。因此，ABA 和 ABD 都可以用来评估 LLM 的安全性。对比实验结果也从逻辑上解释了注意力权重分布会对 LLM 的输出产生巨大影响。