LLM2D

摘要

对齐的大语言模型 (LLM) 是安全的，能够识别恶意问题并拒绝回答。然而，内部参数在维护这种安全性方面的作用尚未得到充分理解，此外，这些模型在使用非恶意后门或正常数据微调时，可能会出现安全性能下降。为了解决这些挑战，我们的工作从参数层面揭示了对齐 LLM 中安全性的机制，识别出模型中间一小部分连续层，这些层对于区分恶意查询和正常查询至关重要，我们将其称为“安全层”。我们首先通过分析模型内部层中输入向量的变化来确认这些安全层的存在。此外，我们利用过度拒绝现象和参数缩放分析来精确定位安全层。基于这些发现，我们提出了一种新的微调方法，即安全部分参数微调 (SPPFT)，该方法在微调过程中固定安全层的梯度，以解决安全性能下降问题。我们的实验表明，与完全微调相比，该方法可以显著保留 LLM 的安全性，同时保持性能并减少计算资源。