摘要
针对特定任务的数据微调,以提升下游性能,是充分利用大型语言模型 (LLM) 的关键步骤。然而,以往的研究表明,在多个对抗样本甚至良性数据上对模型进行微调,会极大地损害模型预先配备的对齐和安全能力。在本研究中,我们提出了一种名为 SEAL 的新型框架来增强 LLM 微调的安全性能。SEAL 基于双层优化学习了一个数据排序器,以便对安全且高质量的微调数据进行上调排序,而对不安全或低质量的数据进行下调排序。使用 SEAL 训练的模型在多个基线模型上表现出优异的性能,在 Llama-3-8b-Instruct 和 Merlinite-7b 模型上,与随机选择相比,赢率分别提高了 8.5% 和 9.7%。我们的代码已在 github 上发布,地址为 https://github.com/hanshen95/SEAL。