LLM2D

摘要

近年来研究表明，新兴的微调即服务商业模式暴露了严重的安全性问题——用户上传的少量有害数据进行微调可能会损害模型的安全对齐。这种攻击被称为有害微调，已引起社区广泛的关注。然而，由于该攻击仍处于起步阶段，**我们从自己痛苦的投稿经历中观察到研究界存在普遍的误解。** 本文旨在消除对该攻击设置的一些常见疑虑，并正式确立研究问题。具体来说，我们首先介绍问题的威胁模型，并介绍有害微调攻击及其变体。然后，我们系统地调查了关于该问题攻击/防御/机械分析的现有文献。最后，我们概述了可能有助于该领域发展的未来研究方向。此外，我们还提供了一份感兴趣的问题清单，这些问题可能有助于审稿人在同行评审过程中质疑实验/攻击/防御设置的真实性。相关论文的精选清单已维护并可在以下地址访问：\url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers.}