摘要
对齐的大语言模型(LLMs)是安全的,能够识别和拒绝回答恶意问题。然而,内部参数在维护这种安全方面的作用尚不清楚,而且这些模型在使用非恶意后门或正常数据微调时,可能会出现安全性能下降。为了解决这些挑战,我们的工作在参数层面揭示了对齐的LLMs中安全机制,识别出模型中间一小部分连续层,这些层对于区分恶意查询和正常查询至关重要,称为“安全层”。我们首先通过分析模型内部层中输入向量的变化来确认这些安全层的存在。此外,我们利用过度拒绝现象和参数缩放分析来精确定位安全层。基于这些发现,我们提出了一种新的微调方法,安全部分参数微调(SPPFT),该方法在微调期间固定安全层的梯度,以解决安全性能下降问题。我们的实验表明,与完全微调相比,所提出的方法可以显著保留LLM安全,同时保持性能并减少计算资源。