摘要
对话式大型语言模型被训练成拒绝回答有害问题。然而,新出现的越狱技术仍然可以诱发不安全的输出,这对模型对齐提出了持续的挑战。为了更好地理解不同越狱类型如何绕过安全措施,本文分析了模型在不同越狱输入上的激活情况。我们发现,可以从一类越狱中提取出一个越狱向量,该向量可以有效地减轻其他语义上不同的越狱类别带来的越狱效果。这可能表明不同类型的有效越狱是通过类似的内部机制运作的。我们调查了潜在的共同机制,即有害特征抑制,并找到了证据表明,有效的越狱显着降低了模型对提示有害性的感知。这些发现为开发更强大的越狱防御措施提供了可操作的见解,并为更深入地、机制性地理解语言模型中的越狱动态奠定了基础。