LLM2D
SEAL:基于双层数据选择的安全性增强对齐大语言模型微调
SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection
作者: Han Shen, Pin-Yu Chen, Payel Das, Tianyi Chen
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07471v1

摘要

针对特定任务的数据微调,以提升下游性能,是充分利用大型语言模型 (LLM) 的关键步骤。然而,以往的研究表明,在多个对抗样本甚至良性数据上对模型进行微调,会极大地损害模型预先配备的对齐和安全能力。在本研究中,我们提出了一种名为 SEAL 的新型框架来增强 LLM 微调的安全性能。SEAL 基于双层优化学习了一个数据排序器,以便对安全且高质量的微调数据进行上调排序,而对不安全或低质量的数据进行下调排序。使用 SEAL 训练的模型在多个基线模型上表现出优异的性能,在 Llama-3-8b-Instruct 和 Merlinite-7b 模型上,与随机选择相比,赢率分别提高了 8.5% 和 9.7%。我们的代码已在 github 上发布,地址为 https://github.com/hanshen95/SEAL。