LLM2D

摘要

近年来机器学习，特别是自然语言处理（NLP）的进步，导致了在大型数据集上训练的复杂模型的开发，但也引发了关于敏感信息泄露的担忧。作为回应，欧盟通用数据保护条例 (GDPR) 等监管措施推动了人们对机器遗忘技术（Machine Unlearning）的兴趣日益增长，这种技术使模型能够选择性地忘记特定的数据条目。早期的研究方法主要依赖于预处理方法，而最近的研究则转向了基于训练的遗忘技术。尽管这些方法有效，但大多数现有方法都需要访问原始训练数据，而这些数据通常是无法访问的。此外，直接应用遗忘技术会以损害模型表达能力为代价。为了解决这些挑战，我们引入了迭代对比遗忘 (ICU) 框架，该框架包含三个核心组件：一个知识遗忘归纳模块，旨在通过遗忘损失来去除特定知识；一个对比学习增强模块，用于在纯粹的遗忘目标下保持模型的表达能力；以及一个迭代遗忘细化模块，动态评估特定数据片段上的遗忘程度并进行迭代更新。实验结果证明了我们的 ICU 方法在遗忘敏感信息的同时保持模型整体性能的有效性，为注重隐私的机器学习应用提供了一种有前景的解决方案。