摘要
大型语言模型 (LLM) 在代码生成、机器翻译、情感分析等众多任务中取代了传统方法。红队/安全对齐工作表明,在良性(无害)数据上微调模型可能会损害安全性。然而,这种现象在多大程度上受微调任务、模型校准等不同变量的影响尚不清楚。本文探讨了在各种校准下,针对摘要、代码生成、翻译和分类等下游任务进行微调导致的任务级安全降级。我们的结果表明:1)针对代码生成和翻译微调 LLM 会导致安全护栏降级最为严重。2)LLM 在翻译和分类方面通常具有较弱的护栏,在基线和其他校准中,73-92% 的有害提示的答案属于两个关注类别之一。3)当前的解决方案,包括护栏和安全微调数据集,缺乏跨任务鲁棒性。为了解决这些问题,我们开发了一个新的多任务安全数据集,有效地降低了各种任务的攻击成功率,而不会损害模型的整体有用性。我们的工作强调了需要通用的对齐措施来确保模型更加安全和稳健。