LLM2D

摘要

arXiv:2410.07163v3 通知类型: replace-cross 摘要：本文研究了大型语言模型（LLM）的撤回问题，旨在移除不需要的数据影响（例如，受版权保护或有害内容）的同时保持模型的实用性。尽管对撤回的需求日益增加，但缺乏一个基于技术的优化框架。尽管梯度上升（GA）类型的算法被广泛使用，但它们存在不足，因为这些算法会倒转学习过程而不控制优化发散（即，偏离预训练状态的偏差），这导致过度忘记的风险和潜在的模型崩溃。负偏好优化（NPO）已被提出以解决这一问题，并被认为是当前最先进的LLM撤回方法之一。在本文中，我们重新审视了NPO，并确立了另一个关键问题：参考模型偏见。这种偏见源自于使用参考模型（即，在撤回之前的模型）来评估撤回的成功，这会损害NPO的效果。具体来说，这会导致（a）在遗忘数据具有不同难度级别时优化力量的不均衡分配，以及（b）在撤回优化的早期阶段无效的梯度权重平滑。为了克服这些挑战，我们提出了一种简单而有效的撤回优化框架，称为SimNPO，表明通过简单的偏好优化去除对参考模型的依赖性（从简化视角来看）可以提高撤回效果。我们通过对马尔可夫链混合模型的分析提供了SimNPO优势的更深入见解。大量实验进一步验证了SimNPO在TOFU和MUSE等基准上的有效性以及其在重新学习攻击下的鲁棒性。代码可在https://github.com/OPTML-Group/Unlearn-Simple获取。