摘要
arXiv:2504.12681v1 交叉类型: cross
摘要: 在大量数据集上进行训练的大语言模型(LLMs)往往会学习到敏感信息,这在“被遗忘的权利”等原则下引发了重大的社会和法律问题。从头重新训练整个模型以移除不需要的信息既昂贵又不实际。此外,现有的单一领域遗忘方法无法解决多领域场景的问题,在这种场景中,知识在隐私和版权等领域交织在一起,创建了重叠的表示,导致过度的知识移除或性能下降。为了解决这些问题,我们提出了 GRAIL(基于梯度的自适应遗忘),这是一种新颖的多领域遗忘框架。GRAIL 利用多个领域中的梯度信息来精确区分遗忘范围和保留范围,并应用自适应的参数局部化策略,有选择地移除目标知识同时保留每个领域的关键参数。在遗忘基准上的实验结果表明,GRAIL 在遗忘成功率方面与现有的方法相当,同时展示了高达 17% 更强的知识保留成功率,比之前的最佳方法更具优势。我们的发现确立了一个新的范式,用于有效管理并调节大规模预训练语言模型中的敏感信息。