LLM2D

摘要

arXiv:2504.12321v1 Cheat 类型: cross 摘要: 在过去几年中，语言模型(LMs)在多个领域展示了接近人类的能力。尽管它们在实际应用中表现优异且超过用户的消费水平，但在恶意输入利用LMs的弱点时，它们会受到破解的影响，导致偏离预期行为。当前的防御策略要么将输入提示识别为恶意的，要么阻止LMs生成有害输出。然而，难以解释恶意破解的原因，导致了范围广泛且封闭箱体的方法。在这项研究中，我们提出并证明了小型语言模型(SLMs)的系统提示注意力可以用于描述恶意提示，提供了一种新颖、可解释且成本更低的防护方法，称为AttentionDefense。我们的研究建议，注意力机制是理解并解释LMs对文本嵌入语义意义未涵盖的恶意输入的响应方式的关键组成部分。提出的AttentionDefense在现有的破解基准数据集上进行了评估。消融研究显示，基于SLM的AttentionDefense在破解检测性能上与基于文本嵌入的分类器和GPT-4零样本检测器相当或更优。为了进一步验证该方法的有效性，我们使用闭环LLM多代理系统生成了一个新的基准数据集的新型破解变体。我们证明，在该新的破解数据集上，提出的AttentionDefense方法表现出色，而现有方法在性能上有所下降。此外，出于实际应用的目的，AttentionDefense是理想的选择，因为它所需的计算量仅为小型LM，但性能却与LM检测器相当。