LLM2D

摘要

大型语言模型 (LLM) 在代码生成、机器翻译、情感分析等众多任务中取代了传统方法。红队/安全对齐工作表明，在良性（无害）数据上微调模型可能会损害安全性。然而，这种现象在多大程度上受微调任务、模型校准等不同变量的影响尚不清楚。本文探讨了在各种校准下，针对摘要、代码生成、翻译和分类等下游任务进行微调导致的任务级安全降级。我们的结果表明：1）针对代码生成和翻译微调 LLM 会导致安全护栏降级最为严重。2）LLM 在翻译和分类方面通常具有较弱的护栏，在基线和其他校准中，73-92% 的有害提示的答案属于两个关注类别之一。3）当前的解决方案，包括护栏和安全微调数据集，缺乏跨任务鲁棒性。为了解决这些问题，我们开发了一个新的多任务安全数据集，有效地降低了各种任务的攻击成功率，而不会损害模型的整体有用性。我们的工作强调了需要通用的对齐措施来确保模型更加安全和稳健。