LLM2D
ShieldLearner:一种新的语言模型 jailbreak 攻击防御 paradigm
ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs
作者: Ziyi Ni, Hao Wang, Huacan Wang
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13162v1

摘要

arXiv:2502.13162v1 声明类型: cross 摘要: 大型语言模型(LLMs)在各个领域取得了显著的成功,但仍然容易受到敌对的逃逸攻击。现有的提示防御策略,包括参数修改和参数自由方法,面对适应性、可解释性和定制性的局限性,限制了它们对不断演变的威胁的有效性。为了解决这些挑战,我们提出了ShieldLearner,这是一种新的范式,模仿人类在防御中的学习方式。通过不断的尝试和错误,它自主地将攻击特征提炼成模式图集,并将防御策略合成到元分析框架中,从而实现系统的、可解释的威胁检测。此外,我们引入了适应性对抗增强,以生成成功保护的提示的对抗变体,从而在无需重新训练模型的情况下实现持续自我改进。除了标准基准之外,我们还通过从Wildjailbreak数据集中精心挑选隐蔽性强的恶意提示,创建了一个更难的测试集,强调更隐蔽的恶意意图。实验结果表明,ShieldLearner在传统和更难的测试集上,相对于现有基线实现了显著更高的防御成功率,同时还需要较低的计算开销,使其成为一个在实际应用中实用且高效的对抗防御解决方案。