LLM2D
AttentionDefense:利用系统提示关注进行面向解释的新型 Jailbreak 防御
AttentionDefense: Leveraging System Prompt Attention for Explainable Defense Against Novel Jailbreaks
作者: Charlotte Siska, Anush Sankaran
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12321v1

摘要

arXiv:2504.12321v1 Cheat 类型: cross 摘要: 在过去几年中,语言模型(LMs)在多个领域展示了接近人类的能力。尽管它们在实际应用中表现优异且超过用户的消费水平,但在恶意输入利用LMs的弱点时,它们会受到破解的影响,导致偏离预期行为。当前的防御策略要么将输入提示识别为恶意的,要么阻止LMs生成有害输出。然而,难以解释恶意破解的原因,导致了范围广泛且封闭箱体的方法。在这项研究中,我们提出并证明了小型语言模型(SLMs)的系统提示注意力可以用于描述恶意提示,提供了一种新颖、可解释且成本更低的防护方法,称为AttentionDefense。我们的研究建议,注意力机制是理解并解释LMs对文本嵌入语义意义未涵盖的恶意输入的响应方式的关键组成部分。提出的AttentionDefense在现有的破解基准数据集上进行了评估。消融研究显示,基于SLM的AttentionDefense在破解检测性能上与基于文本嵌入的分类器和GPT-4零样本检测器相当或更优。为了进一步验证该方法的有效性,我们使用闭环LLM多代理系统生成了一个新的基准数据集的新型破解变体。我们证明,在该新的破解数据集上,提出的AttentionDefense方法表现出色,而现有方法在性能上有所下降。此外,出于实际应用的目的,AttentionDefense是理想的选择,因为它所需的计算量仅为小型LM,但性能却与LM检测器相当。