摘要
arXiv:2408.17003v4 安全公告类型: replace-cross
摘要:对齐的大语言模型是安全的,能够识别并拒绝回答恶意问题。然而,内部分布参数在维持这种安全方面的作用尚未被充分理解,此外,这些模型在遭受精细调整攻击时可能会出现安全退化。为了解决这些问题,我们的工作在参数水平上揭示了对齐大语言模型中安全机制背后的原理,识别出模型中部的一小组连续层次,这些层次对于区分恶意查询和正常查询至关重要,被称为“安全层”。我们首先通过分析模型内部层面上输入向量的变化来确认这些安全层的存在。此外,我们利用过度拒绝现象和参数缩放分析,精确地定位这些安全层。基于这些发现,我们提出了一种新的精细调整方法——安全部分参数精细调整(SPPFT),该方法在精细调整过程中固定安全层的梯度,以应对安全退化问题。我们的实验表明,所提出的方法可以在保持性能和减少计算资源需求的同时,显著地保存大语言模型的安全性。