摘要
arXiv:2504.21053v1 安全对齐类型: 交叉
摘要:在大型语言模型(LLMs)中实现安全性对齐是通过调整个性激活机制来抑制有害内容来实现的。在本文中,我们提出了一种新颖的方法,通过识别和修改负责安全性约束的神经元来诱导不对齐。我们的方法包括三个关键步骤:神经元激活分析,其中我们检查有害和无害提示的激活模式,以检测对于区分有害和无害输入至关重要的神经元;基于相似性的神经元识别,其系统地定位负责安全对齐的神经元;以及神经元重学习以移除非安全性约束,其中我们对这些选定的神经元进行调优以恢复模型生成之前被限制的响应的能力。实验结果证明,我们的方法可以通过最小的调优有效地移除安全性约束,突显了当前对齐技术中的关键漏洞。我们的发现强调了在LLMs上对抗调优攻击的 robust 防御的必要性。