摘要
大型语言模型 (LLM) 在文本生成方面展现出卓越的能力,这得益于其在海量文本语料库上的广泛训练。然而,LLM 也可能从其训练数据的多样性和敏感性中习得不良行为,其中可能包括受版权保护和私人内容。机器遗忘已被提出作为一种可行的解决方案,用于去除此类问题内容的影响,而无需进行代价高昂且耗时的重新训练。此过程旨在从LLM中抹去特定知识,同时尽可能保留模型的实用性。尽管目前的遗忘方法有效,但很少有人关注现有的LLM遗忘方法是否真正实现了遗忘,或者仅仅是隐藏了知识,而目前的遗忘基准测试无法检测到这一点。本文揭示了对经过遗忘处理的模型应用量化可以恢复“遗忘”的信息。为了彻底评估这一现象,我们使用多种量化技术跨多个精度级别进行了全面的实验。我们发现,对于具有效用约束的遗忘方法,在全精度下,遗忘的模型平均保留了 21% 的预期遗忘知识,而在 4 位量化后,这一比例显著提高到 83%。基于我们的实证结果,我们对观察到的现象进行了理论解释,并提出了一种抗量化遗忘策略来缓解这一复杂问题……