LLM2D

摘要

对话式大型语言模型被训练成拒绝回答有害问题。然而，新出现的越狱技术仍然可以诱发不安全的输出，这对模型对齐提出了持续的挑战。为了更好地理解不同越狱类型如何绕过安全措施，本文分析了模型在不同越狱输入上的激活情况。我们发现，可以从一类越狱中提取出一个越狱向量，该向量可以有效地减轻其他语义上不同的越狱类别带来的越狱效果。这可能表明不同类型的有效越狱是通过类似的内部机制运作的。我们调查了潜在的共同机制，即有害特征抑制，并找到了证据表明，有效的越狱显着降低了模型对提示有害性的感知。这些发现为开发更强大的越狱防御措施提供了可操作的见解，并为更深入地、机制性地理解语言模型中的越狱动态奠定了基础。