LLM2D
大道至简:重新思考大型语言模型遗忘学习中的负偏好优化
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning
作者: Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07163v1

摘要

这项工作致力于解决大型语言模型 (LLM) 的遗忘问题,目标是在保留模型基本功能的同时,移除不需要的数据影响和相关的模型能力(例如,受版权保护的数据或有害内容生成),而无需从头开始重新训练。尽管对 LLM 遗忘的需求日益增长,但仍然缺乏一个有原则的优化框架。为此,我们重新审视了最先进的方法——负偏好优化 (NPO),并确定了参考模型偏差的问题,这可能会削弱 NPO 的有效性,尤其是在遗忘难度不同的数据时。鉴于此,我们提出一个简单而有效的遗忘优化框架,称为 SimNPO,它表明在移除对参考模型的依赖(通过简单偏好优化的视角)方面,“简单性”有利于遗忘。我们还利用马尔可夫链混合模型的分析,对 SimNPO 的优势进行了更深入的探讨。此外,我们还进行了大量的实验,验证了 SimNPO 在 TOFU 和 MUSE 等基准测试中优于现有的遗忘基线,并且对再学习攻击具有鲁棒性。代码可在 https://github.com/OPTML-Group/Unlearn-Simple 获取。