LLM2D

摘要

大型语言模型 (LLMs) 通过称为“定制”的过程广泛地应用于下游应用，其中微调是整合特定领域专业知识的常用方法。然而，最近的研究表明，用恶意样本微调 LLMs 会损害其鲁棒性并放大有害内容，这种攻击被称为“越狱”。为了减轻这种攻击，我们提出了一种有效的防御框架，利用数据整理来修改常识文本，并从 LLMs 的角度增强其安全性。整理后的文本可以减轻定制过程各个阶段的越狱攻击：在定制之前，使 LLMs 免受未来越狱企图的侵害；在定制期间，消除越狱风险；或在定制之后，恢复受损模型。由于整理后的数据通过标准微调工作流程增强了 LLMs，因此我们在 LLM 推理过程中没有引入额外的模块，从而保留了原始的定制过程。实验结果表明，越狱效应大幅降低，在生成负责任的响应方面取得了高达 100% 的成功率。值得注意的是，我们的方法即使使用常识文本也同样有效，而常识文本往往比安全相关数据更容易获得。凭借全阶段防御框架和支持的实验性能，这项工作代表着在减轻越狱风险和确保 LLMs 安全定制方面取得了重大进展。