摘要
arXiv:2502.09674v1 安全类型:跨域
摘要:大型语言模型的安全对齐行为,如拒绝有害查询,可以通过激活空间中的线性方向来表示。以前的研究使用单一方向来建模安全性行为,这限制了对其机制性理解的单一安全特性。在这项工作中,我们发现安全性对齐行为是由多维方向共同控制的。具体来说,我们研究了在 Llama 3 8B 上通过对付逃逸进行安全微调时表示变化的向量空间。通过研究空间中的正交方向,我们首先发现一个主导方向控制了模型的拒绝行为,而多个较小的方向则代表了不同的可解释特征,如假设性叙事和角色扮演。然后我们测量了不同方向促进或抑制主导方向的程度,展示了辅助方向在塑造模型拒绝表示方面的重要作用。最后,我们展示了在有害查询中删除某些触发词可以减轻这些方向以绕过学习到的安全能力,从而从多维视角提供了对安全性对齐脆弱性的新认识。相关代码和资源可在 https://github.com/BMPixel/safety-residual-space 获取。