LLM2D

摘要

大型语言模型 (LLM) 在预训练过程中通常会记忆敏感、私密或受版权保护的数据。LLM 遗忘旨在消除预训练模型中不受欢迎数据的影響，同时保留模型在其他任务上的效用。最近提出了几种用于 LLM 遗忘的实用方法，大多数基于对不受欢迎数据的损失的梯度上升 (GA)。然而，在某些遗忘任务中，这些方法要么无法有效地遗忘目标数据，要么会遭受灾难性崩溃——模型效用急剧下降。本文提出了一种名为负偏好优化 (NPO) 的简单、受对齐启发的方法，它可以有效地遗忘目标数据集。我们从理论上证明，通过最小化 NPO 损失，向灾难性崩溃的进展速度比 GA 指数级慢。通过对合成数据和 TOFU 基准数据集的实验，我们证明了基于 NPO 的方法在遗忘不受欢迎数据和保持模型效用之间取得了更好的平衡。我们还观察到，基于 NPO 的方法比基于 GA 的方法生成更合理的输出，而基于 GA 的方法的输出通常是胡言乱语。值得注意的是，在 TOFU 上，基于 NPO 的方法是第一个在遗忘 50%（或更多）训练数据的情况下取得合理遗忘结果的方法，而现有方法在遗忘 10% 的训练数据时就已经遇到了困难。