摘要
arXiv:2502.09674v2 安全类型: 重新交叉
摘要: 大型语言模型的安全对齐行为,如拒绝有害查询,可以通过激活空间中的线性方向来表示。以往的研究用单一方向来建模安全性行为,这限制了人们对机制理解的范围,仅限于孤立的安全特性。在本文中,我们发现安全性对齐行为是由多维方向共同控制的。具体而言,我们在对 Llama 3 8B 进行安全性微调以拒绝突破限制时,研究了表示转换的向量空间。通过在空间中研究正交方向,我们发现一个主导方向主导了模型的拒绝行为,而多个较小的方向则代表了不同的可解释特征,如假设叙事和角色扮演。随后,我们测量了不同方向如何促进或抑制主导方向,展示了次要方向在塑造模型拒绝表示中的重要作用。最后,我们展示了在有害查询中移除某些触发词可以削弱这些方向,从而使模型绕过学习到的安全能力,从而从多维视角提供了对安全对齐脆弱性的新见解。相关代码和资源可在 https://github.com/BMPixel/safety-residual-space 获取。