摘要
arXiv:2502.11019v1 类型: cross
摘要:灾难性遗忘(CF)在机器学习中构成了重大挑战,当模型学会新任务时,会忘记之前学习到的信息。尽管大型语言模型(LLMs)具有先进的能力,但在持续学习过程中,它们仍然面临CF的挑战。现有的大部分研究集中在通过单一训练序列分析遗忘模式,从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了各种设置下的CF,发现模型的遗忘不仅受到特定训练任务的影响,还受到模型本身的影响。为此,我们通过检查功能向量(FV)来解释遗忘,FV是LLMs中函数的一种紧凑表示,提供了一种依赖于模型的CF发生指标。通过理论和实证分析,我们证明CF在LLMs中的主要原因是功能激活的偏差,而不是任务处理功能的覆盖。利用这些见解,我们提出了一种新的功能向量指导训练方法,引入正则化技术来稳定FV并减轻遗忘。在四个基准上的实验测试证实了我们提出训练方法的有效性,支持了我们关于CF和模型功能动力学的理论框架。我们计划在未来不久公开我们的代码。