LLM2D
负合并:用于强大机器遗忘的共识权重否定
NegMerge: Consensual Weight Negation for Strong Machine Unlearning
作者: Hyoseo Kim, Dongyoon Han, Junsuk Choe
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05583v1

摘要

机器遗忘学习旨在从模型中选择性地删除特定知识。现有的方法,例如任务算术,依赖于在遗忘集上微调模型,生成任务向量,并将其从原始模型中减去。然而,我们认为这种方法的有效性高度依赖于超参数的选择,需要仔细验证才能在众多微调候选模型中确定最佳模型。在本文中,我们提出了一种新方法,利用所有给定的微调模型,而不是选择单个模型。通过从具有不同超参数训练的模型中构建任务向量,并仅合并具有一致符号的任务向量分量,我们通过从原始模型中否定合并后的任务向量来执行遗忘学习。鉴于现有方法也利用多个微调模型,我们的方法在不产生额外计算成本的情况下实现了更有效的遗忘学习。我们在视觉语言模型和标准图像分类模型上证明了我们方法的有效性,展示了在保留集上性能略微下降的情况下改进的遗忘学习性能,优于最先进的技术。