LLM2D
理解越狱成功:大型语言模型潜在空间动力学研究
Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models
作者: Sarah Ball, Frauke Kreuter, Nina Panickssery
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.09289v2

摘要

对话式大型语言模型被训练成拒绝回答有害问题。然而,新出现的越狱技术仍然可以诱发不安全的输出,这对模型对齐提出了持续的挑战。为了更好地理解不同越狱类型如何绕过安全措施,本文分析了模型在不同越狱输入上的激活情况。我们发现,可以从一类越狱中提取出一个越狱向量,该向量可以有效地减轻其他语义上不同的越狱类别带来的越狱效果。这可能表明不同类型的有效越狱是通过类似的内部机制运作的。我们调查了潜在的共同机制,即有害特征抑制,并找到了证据表明,有效的越狱显着降低了模型对提示有害性的感知。这些发现为开发更强大的越狱防御措施提供了可操作的见解,并为更深入地、机制性地理解语言模型中的越狱动态奠定了基础。