LLM2D

摘要

arXiv:2504.12681v1 交叉类型: cross 摘要: 在大量数据集上进行训练的大语言模型（LLMs）往往会学习到敏感信息，这在“被遗忘的权利”等原则下引发了重大的社会和法律问题。从头重新训练整个模型以移除不需要的信息既昂贵又不实际。此外，现有的单一领域遗忘方法无法解决多领域场景的问题，在这种场景中，知识在隐私和版权等领域交织在一起，创建了重叠的表示，导致过度的知识移除或性能下降。为了解决这些问题，我们提出了 GRAIL（基于梯度的自适应遗忘），这是一种新颖的多领域遗忘框架。GRAIL 利用多个领域中的梯度信息来精确区分遗忘范围和保留范围，并应用自适应的参数局部化策略，有选择地移除目标知识同时保留每个领域的关键参数。在遗忘基准上的实验结果表明，GRAIL 在遗忘成功率方面与现有的方法相当，同时展示了高达 17% 更强的知识保留成功率，比之前的最佳方法更具优势。我们的发现确立了一个新的范式，用于有效管理并调节大规模预训练语言模型中的敏感信息。