摘要
arXiv:2408.17003v5 宣布类型: replace-cross
摘要:对齐的大语言模型是安全的,能够识别并拒绝回答恶意问题。然而,内部参数在维护这种安全方面的作用还未被充分理解,而且这些模型在遭受微调攻击时可能会出现安全性能下降。为了解决这些挑战,我们的工作揭示了在参数级别对齐的大语言模型中保障安全机制的本质,确定了模型中间部位的一小组连续层对于区分恶意查询和正常查询至关重要,这些层被称为“安全性层”。我们首先通过分析模型内部层中的输入向量变化来确认这些安全性层的存在。此外,我们利用过度拒绝现象和参数缩放分析来精确定位安全性层。基于这些发现,我们提出了一种新的微调方法——安全部分参数微调(SPPFT),该方法在微调过程中固定安全性层的梯度,以应对安全性能下降的问题。我们的实验表明,所提出的方法可以显著保持大语言模型的安全性,同时保持性能并减少计算资源消耗,相比全参数微调更为优越。