摘要
arXiv:2410.02220v4 宣布类型: 替换-交叉
摘要:大规模语言模型(LLMs)通过微调广泛应用于下游应用,这一过程称为自定义。然而,最近的研究发现,在这个过程中存在一个漏洞,即恶意样本可以损害LLMs的稳健性并放大有害行为——这种攻击通常称为狱霸攻击。为应对这一挑战,我们提出了一种适应性的数据策展方法,允许任何文本被策展,以增强其在自定义过程中的有效性,对抗有害样本。为避免需要额外的防御模块,我们进一步引入了一个覆盖自定义生命周期全程的综合缓解框架:在自定义之前,使LLMs免疫以对抗未来的狱霸攻击尝试;在自定义过程中,减轻风险;在自定义之后,恢复受损害的模型。实验结果表明,狱霸攻击效应显著减少,生成安全响应的成功率达到100%。通过将适应性数据策展与基于生命周期的缓解策略相结合,这项工作代表了缓解狱霸攻击风险并确保LLMs安全自适应的重要一步。