LLM2D
解锁功能向量的潜力,用于表征和缓解持续指令调谐中灾难性遗忘问题
Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning
作者: Gangwei Jiang, Caigao Jiang, Zhaoyi Li, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Yin Wei
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11019v1

摘要

arXiv:2502.11019v1 类型: cross 摘要:灾难性遗忘(CF)在机器学习中构成了重大挑战,当模型学会新任务时,会忘记之前学习到的信息。尽管大型语言模型(LLMs)具有先进的能力,但在持续学习过程中,它们仍然面临CF的挑战。现有的大部分研究集中在通过单一训练序列分析遗忘模式,从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了各种设置下的CF,发现模型的遗忘不仅受到特定训练任务的影响,还受到模型本身的影响。为此,我们通过检查功能向量(FV)来解释遗忘,FV是LLMs中函数的一种紧凑表示,提供了一种依赖于模型的CF发生指标。通过理论和实证分析,我们证明CF在LLMs中的主要原因是功能激活的偏差,而不是任务处理功能的覆盖。利用这些见解,我们提出了一种新的功能向量指导训练方法,引入正则化技术来稳定FV并减轻遗忘。在四个基准上的实验测试证实了我们提出训练方法的有效性,支持了我们关于CF和模型功能动力学的理论框架。我们计划在未来不久公开我们的代码。