LLM2D
Booster:通过减弱有害扰动来应对大型语言模型的有害微调
Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.01586v3

摘要

arXiv:2409.01586v3 公告类型: 替换-交叉 摘要: 有害微调问题 \citep{qi2023fine} 对大型语言模型的微调即服务提出了严重的安全担忧。尽管现有的防御措施 \citep{huang2024vaccine,rosati2024representation} 已被提出以缓解该问题,但其性能仍远未达到令人满意,且问题的根本原因尚未完全解决。本文首次在文献中指出,模型权重上的有害扰动应是导致有害微调对齐失效的根本原因。为了减轻有害扰动的负面影响,我们提出了一种对齐阶段解决方案,称为 Booster。从技术上讲,在原始对齐损失的基础上,我们在对齐阶段的优化中附加了一个损失正则化器。该正则化器确保模型在模拟有害扰动前后的有害损失减少得到缓解,从而降低后续微调的风险。实验结果表明,Booster 能有效降低微调模型的有害分数,同时保持下游任务的性能。我们的代码可在 \url{https://github.com/git-disl/Booster} 获取。