摘要
针对特定任务的数据微调对于提升下游性能至关重要,是充分利用大型语言模型 (LLM) 的关键步骤。然而,以往研究表明,在多个对抗样本甚至良性数据上微调模型会严重损害模型预先配备的对齐和安全能力。在本研究中,我们提出了 SEAL,一个用于增强 LLM 微调安全性的新颖框架。SEAL 基于双层优化学习数据排序器,以提升安全且高质量的微调数据的排名,并降低不安全或低质量数据的排名。使用 SEAL 训练的模型在多个基准测试中表现出优于其他模型的质量,与随机选择相比,Llama-3-8b-Instruct 和 Merlinite-7b 模型的获胜率分别提高了 8.5% 和 9.7%。我们的代码已发布在 GitHub 上:https://github.com/hanshen95/SEAL。