LLM2D

摘要

arXiv:2502.13162v1 声明类型: cross 摘要: 大型语言模型（LLMs）在各个领域取得了显著的成功，但仍然容易受到敌对的逃逸攻击。现有的提示防御策略，包括参数修改和参数自由方法，面对适应性、可解释性和定制性的局限性，限制了它们对不断演变的威胁的有效性。为了解决这些挑战，我们提出了ShieldLearner，这是一种新的范式，模仿人类在防御中的学习方式。通过不断的尝试和错误，它自主地将攻击特征提炼成模式图集，并将防御策略合成到元分析框架中，从而实现系统的、可解释的威胁检测。此外，我们引入了适应性对抗增强，以生成成功保护的提示的对抗变体，从而在无需重新训练模型的情况下实现持续自我改进。除了标准基准之外，我们还通过从Wildjailbreak数据集中精心挑选隐蔽性强的恶意提示，创建了一个更难的测试集，强调更隐蔽的恶意意图。实验结果表明，ShieldLearner在传统和更难的测试集上，相对于现有基线实现了显著更高的防御成功率，同时还需要较低的计算开销，使其成为一个在实际应用中实用且高效的对抗防御解决方案。