LLM2D

摘要

arXiv:2502.09674v2 安全类型: 重新交叉摘要: 大型语言模型的安全对齐行为，如拒绝有害查询，可以通过激活空间中的线性方向来表示。以往的研究用单一方向来建模安全性行为，这限制了人们对机制理解的范围，仅限于孤立的安全特性。在本文中，我们发现安全性对齐行为是由多维方向共同控制的。具体而言，我们在对 Llama 3 8B 进行安全性微调以拒绝突破限制时，研究了表示转换的向量空间。通过在空间中研究正交方向，我们发现一个主导方向主导了模型的拒绝行为，而多个较小的方向则代表了不同的可解释特征，如假设叙事和角色扮演。随后，我们测量了不同方向如何促进或抑制主导方向，展示了次要方向在塑造模型拒绝表示中的重要作用。最后，我们展示了在有害查询中移除某些触发词可以削弱这些方向，从而使模型绕过学习到的安全能力，从而从多维视角提供了对安全对齐脆弱性的新见解。相关代码和资源可在 https://github.com/BMPixel/safety-residual-space 获取。