LLM2D
如何缓解大型语言模型微调中的灾难性遗忘?分层层wise和元素wise正则化
How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization
作者: Shezheng Song, Hao Xu, Jun Ma, Shasha Li, Long Peng, Qian Wan, Xiaodong Liu, Jie Yu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.13669v2

摘要

arXiv:2501.13669v2 宣告类型: 替换交叉 摘要:大型语言模型(LLMs)表现出强大的通用语言能力。然而,将这些模型针对特定领域的任务进行微调往往会导致灾难性遗忘现象,即模型会覆盖或丢失预训练期间获得的基本知识。这种现象极大地限制了LLMs的广泛应用。为了解决这一挑战,我们提出了一种新的方法,用于计算在微调过程中对于保持通用知识至关重要的模型参数的逐元素重要性。该方法采用了一种双重目标优化策略:(1)基于逐元素参数重要性的正则化损失,该损失限制了对于通用知识至关重要的参数的更新;(2)交叉熵损失,使其能够适应特定领域的任务。此外,我们引入了逐层系数来考虑不同层的不同贡献,动态平衡双重目标优化。使用GPT-J和LLaMA-3在科学、医学和物理任务上的广泛实验表明,我们的方法减轻了灾难性遗忘现象,同时增强了模型的适应性。与先前的方法相比,我们的解决方案大约快20倍,并且仅需要10-15%的存储空间,突显了其实用性。该代码将被发布。