LLM2D

摘要

大型语言模型 (LLM) 在文本生成方面展现出卓越的能力，这得益于其在海量文本语料库上的广泛训练。然而，LLM 也可能从其训练数据的多样性和敏感性中习得不良行为，其中可能包括受版权保护和私人内容。机器遗忘已被提出作为一种可行的解决方案，用于去除此类问题内容的影响，而无需进行代价高昂且耗时的重新训练。此过程旨在从LLM中抹去特定知识，同时尽可能保留模型的实用性。尽管目前的遗忘方法有效，但很少有人关注现有的LLM遗忘方法是否真正实现了遗忘，或者仅仅是隐藏了知识，而目前的遗忘基准测试无法检测到这一点。本文揭示了对经过遗忘处理的模型应用量化可以恢复“遗忘”的信息。为了彻底评估这一现象，我们使用多种量化技术跨多个精度级别进行了全面的实验。我们发现，对于具有效用约束的遗忘方法，在全精度下，遗忘的模型平均保留了 21% 的预期遗忘知识，而在 4 位量化后，这一比例显著提高到 83%。基于我们的实证结果，我们对观察到的现象进行了理论解释，并提出了一种抗量化遗忘策略来缓解这一复杂问题……