LLM2D
简化为王:重新思考大型语言模型遗忘中关于负偏好优化的思想
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning
作者: Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2410.07163v3

摘要

arXiv:2410.07163v3 通知类型: replace-cross 摘要:本文研究了大型语言模型(LLM)的撤回问题,旨在移除不需要的数据影响(例如,受版权保护或有害内容)的同时保持模型的实用性。尽管对撤回的需求日益增加,但缺乏一个基于技术的优化框架。尽管梯度上升(GA)类型的算法被广泛使用,但它们存在不足,因为这些算法会倒转学习过程而不控制优化发散(即,偏离预训练状态的偏差),这导致过度忘记的风险和潜在的模型崩溃。负偏好优化(NPO)已被提出以解决这一问题,并被认为是当前最先进的LLM撤回方法之一。在本文中,我们重新审视了NPO,并确立了另一个关键问题:参考模型偏见。这种偏见源自于使用参考模型(即,在撤回之前的模型)来评估撤回的成功,这会损害NPO的效果。具体来说,这会导致(a)在遗忘数据具有不同难度级别时优化力量的不均衡分配,以及(b)在撤回优化的早期阶段无效的梯度权重平滑。为了克服这些挑战,我们提出了一种简单而有效的撤回优化框架,称为SimNPO,表明通过简单的偏好优化去除对参考模型的依赖性(从简化视角来看)可以提高撤回效果。我们通过对马尔可夫链混合模型的分析提供了SimNPO优势的更深入见解。大量实验进一步验证了SimNPO在TOFU和MUSE等基准上的有效性以及其在重新学习攻击下的鲁棒性。代码可在https://github.com/OPTML-Group/Unlearn-Simple获取。