LLM2D
负偏好优化:从灾难性崩溃到有效遗忘
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning
作者: Ruiqi Zhang, Licong Lin, Yu Bai, Song Mei
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2404.05868v2

摘要

大型语言模型 (LLM) 在预训练过程中通常会记忆敏感、私密或受版权保护的数据。LLM 遗忘旨在消除预训练模型中不受欢迎数据的影響,同时保留模型在其他任务上的效用。最近提出了几种用于 LLM 遗忘的实用方法,大多数基于对不受欢迎数据的损失的梯度上升 (GA)。然而,在某些遗忘任务中,这些方法要么无法有效地遗忘目标数据,要么会遭受灾难性崩溃——模型效用急剧下降。 本文提出了一种名为负偏好优化 (NPO) 的简单、受对齐启发的方法,它可以有效地遗忘目标数据集。我们从理论上证明,通过最小化 NPO 损失,向灾难性崩溃的进展速度比 GA 指数级慢。通过对合成数据和 TOFU 基准数据集的实验,我们证明了基于 NPO 的方法在遗忘不受欢迎数据和保持模型效用之间取得了更好的平衡。我们还观察到,基于 NPO 的方法比基于 GA 的方法生成更合理的输出,而基于 GA 的方法的输出通常是胡言乱语。值得注意的是,在 TOFU 上,基于 NPO 的方法是第一个在遗忘 50%(或更多)训练数据的情况下取得合理遗忘结果的方法,而现有方法在遗忘 10% 的训练数据时就已经遇到了困难。