LLM2D

摘要

这项工作致力于解决大型语言模型 (LLM) 的遗忘问题，目标是在保留模型基本功能的同时，移除不需要的数据影响和相关的模型能力（例如，受版权保护的数据或有害内容生成），而无需从头开始重新训练。尽管对 LLM 遗忘的需求日益增长，但仍然缺乏一个有原则的优化框架。为此，我们重新审视了最先进的方法——负偏好优化 (NPO)，并确定了参考模型偏差的问题，这可能会削弱 NPO 的有效性，尤其是在遗忘难度不同的数据时。鉴于此，我们提出一个简单而有效的遗忘优化框架，称为 SimNPO，它表明在移除对参考模型的依赖（通过简单偏好优化的视角）方面，“简单性”有利于遗忘。我们还利用马尔可夫链混合模型的分析，对 SimNPO 的优势进行了更深入的探讨。此外，我们还进行了大量的实验，验证了 SimNPO 在 TOFU 和 MUSE 等基准测试中优于现有的遗忘基线，并且对再学习攻击具有鲁棒性。代码可在 https://github.com/OPTML-Group/Unlearn-Simple 获取。