LLM2D

摘要

arXiv:2409.01586v3 公告类型: 替换-交叉摘要: 有害微调问题 \citep{qi2023fine} 对大型语言模型的微调即服务提出了严重的安全担忧。尽管现有的防御措施 \citep{huang2024vaccine,rosati2024representation} 已被提出以缓解该问题，但其性能仍远未达到令人满意，且问题的根本原因尚未完全解决。本文首次在文献中指出，模型权重上的有害扰动应是导致有害微调对齐失效的根本原因。为了减轻有害扰动的负面影响，我们提出了一种对齐阶段解决方案，称为 Booster。从技术上讲，在原始对齐损失的基础上，我们在对齐阶段的优化中附加了一个损失正则化器。该正则化器确保模型在模拟有害扰动前后的有害损失减少得到缓解，从而降低后续微调的风险。实验结果表明，Booster 能有效降低微调模型的有害分数，同时保持下游任务的性能。我们的代码可在 \url{https://github.com/git-disl/Booster} 获取。