LLM2D
大型语言模型的有害微调攻击与防御:综述
Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
作者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.18169v2

摘要

近年来研究表明,新兴的“微调即服务”商业模式暴露了严重的安全性问题——用户上传少量有害数据进行微调可能会损害模型的安全对齐。这种攻击被称为“有害微调”,引起了研究界广泛的关注。然而,由于这种攻击还很新,**我们从自己糟糕的投稿经历中发现,研究界普遍存在一些误解。** 本文旨在澄清攻击设置中的一些常见误解,并正式建立研究问题。具体而言,我们首先介绍了该问题的威胁模型,并介绍了有害微调攻击及其变体。然后,我们系统地调研了关于该问题攻击/防御/机械分析的现有文献。最后,我们概述了可能有助于该领域发展的未来研究方向。此外,我们还提供了一个感兴趣的问题列表,这些问题可能有助于审稿人在同行评审过程中质疑实验/攻击/防御设置的真实性。一个精心策划的相关论文列表在以下地址维护并可供访问:\url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers}.