LLM2D
解锁函数向量的潜力以-characterize and mitigate catastrophic forgetting in continual instruction tuning
Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning
作者: Gangwei Jiang, Caigao Jiang, Zhaoyi Li, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Ying Wei
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2502.11019v2

摘要

arXiv:2502.11019v2 宣告类型: replace-cross 摘要: 持续学习中的灾难性遗忘(CF)对机器学习构成了重大挑战,模型在学习新任务时会忘记之前学到的信息。尽管大型语言模型(LLMs)具有先进的能力,但在持续学习过程中,它们仍然面临着CF的挑战。目前大多数现有研究都集中在通过单一训练序列来分析遗忘模式,从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了CF在各种场景中的影响,发现模型的遗忘受到特定训练任务和模型本身的双重影响。为此,我们通过分析函数矢量(FV),即LLM中函数的紧凑表示,为CF的发生提供了一个依赖模型的指标。通过理论和实证分析,我们证明了LLMs中的CF主要源于功能激活的偏差,而不是任务处理功能的覆盖。利用这些见解,我们提出了一种新的函数矢量指导训练方法,引入正则化技术以稳定FV并减轻遗忘。在四个基准测试上的实验证明了我们提出的训练方法的有效性,支持了我们关于CF和模型功能动态的理论框架。我们计划在未来不久提供我们的代码。