LLM2D
系好安全带:通过数据整理在每个定制阶段增强大型语言模型的鲁棒性
Buckle Up: Robustifying LLMs at Every Customization Stage via Data Curation
作者: Xiaoqun Liu, Jiacheng Liang, Luoxi Tang, Chenyu You, Muchao Ye, Zhaohan Xi
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02220v2

摘要

大型语言模型 (LLMs) 通过称为“定制”的过程广泛地应用于下游应用,其中微调是整合特定领域专业知识的常用方法。然而,最近的研究表明,用恶意样本微调 LLMs 会损害其鲁棒性并放大有害内容,这种攻击被称为“越狱”。为了减轻这种攻击,我们提出了一种有效的防御框架,利用数据整理来修改常识文本,并从 LLMs 的角度增强其安全性。整理后的文本可以减轻定制过程各个阶段的越狱攻击:在定制之前,使 LLMs 免受未来越狱企图的侵害;在定制期间,消除越狱风险;或在定制之后,恢复受损模型。由于整理后的数据通过标准微调工作流程增强了 LLMs,因此我们在 LLM 推理过程中没有引入额外的模块,从而保留了原始的定制过程。实验结果表明,越狱效应大幅降低,在生成负责任的响应方面取得了高达 100% 的成功率。值得注意的是,我们的方法即使使用常识文本也同样有效,而常识文本往往比安全相关数据更容易获得。凭借全阶段防御框架和支持的实验性能,这项工作代表着在减轻越狱风险和确保 LLMs 安全定制方面取得了重大进展。