LLM2D

摘要

针对特定任务的数据微调，以提升下游性能，是充分利用大型语言模型 (LLM) 的关键步骤。然而，以往的研究表明，在多个对抗样本甚至良性数据上对模型进行微调，会极大地损害模型预先配备的对齐和安全能力。在本研究中，我们提出了一种名为 SEAL 的新型框架来增强 LLM 微调的安全性能。SEAL 基于双层优化学习了一个数据排序器，以便对安全且高质量的微调数据进行上调排序，而对不安全或低质量的数据进行下调排序。使用 SEAL 训练的模型在多个基线模型上表现出优异的性能，在 Llama-3-8b-Instruct 和 Merlinite-7b 模型上，与随机选择相比，赢率分别提高了 8.5% 和 9.7%。我们的代码已在 github 上发布，地址为 https://github.com/hanshen95/SEAL。