摘要
这项工作致力于解决大型语言模型 (LLM) 的遗忘问题,目标是在保留模型基本功能的同时,移除不需要的数据影响和相关的模型能力(例如,受版权保护的数据或有害内容生成),而无需从头开始重新训练。尽管对 LLM 遗忘的需求日益增长,但仍然缺乏一个有原则的优化框架。为此,我们重新审视了最先进的方法——负偏好优化 (NPO),并确定了参考模型偏差的问题,这可能会削弱 NPO 的有效性,尤其是在遗忘难度不同的数据时。鉴于此,我们提出一个简单而有效的遗忘优化框架,称为 SimNPO,它表明在移除对参考模型的依赖(通过简单偏好优化的视角)方面,“简单性”有利于遗忘。我们还利用马尔可夫链混合模型的分析,对 SimNPO 的优势进行了更深入的探讨。此外,我们还进行了大量的实验,验证了 SimNPO 在 TOFU 和 MUSE 等基准测试中优于现有的遗忘基线,并且对再学习攻击具有鲁棒性。代码可在 https://github.com/OPTML-Group/Unlearn-Simple 获取。