LLM2D
促使LLM崩坏的哪些提示特征?探究攻击背后的机制
What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks
作者: Nathalie Kirch, Constantin Weisser, Severin Field, Helen Yannakoudakis, Stephen Casper
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2411.03343v2

摘要

arXiv:2411.03343v2 通知类型: replace-cross 摘要:间谍攻击一直是关于大规模语言模型(LLM)的安全性和可靠性研究中的核心关注点,然而这些攻击机制仍知之甚少。尽管以往的研究主要依赖线性方法来检测间谍攻击尝试和模型拒绝,我们采取了不同的方法,通过研究导致成功间谍攻击的提示的线性和非线性特征。首先,我们引入了一个新的数据集,包含10,800个间谍攻击尝试,覆盖了35种不同的攻击方法。利用这一数据集,我们训练探测器以区分成功和不成功的间谍攻击,这是通过相应的提示标记的潜在表示实现的。值得注意的是,我们发现,即使探测器在预测间谍攻击成功率方面取得了高准确性,它们的表现往往无法泛化到未见过的攻击方法上。这揭示了不同的间谍破解策略利用了不同的非线性和非普遍性特征。接下来,我们证明了非线性探测器提供了引导模型行为的强大工具。具体来说,我们使用这些探测器来指导目标潜在空间扰动,从而使我们能够有效地调节模型对间谍攻击的鲁棒性。总体而言,我们的研究结果挑战了仅通过线性或简单的通用提示特征来完全理解间谍攻击的假设,突显了对LLM脆弱性背后机制进行细致理解的重要性。