LLM2D

摘要

arXiv:2502.11019v2 宣告类型: replace-cross 摘要: 持续学习中的灾难性遗忘(CF)对机器学习构成了重大挑战，模型在学习新任务时会忘记之前学到的信息。尽管大型语言模型(LLMs)具有先进的能力，但在持续学习过程中，它们仍然面临着CF的挑战。目前大多数现有研究都集中在通过单一训练序列来分析遗忘模式，从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了CF在各种场景中的影响，发现模型的遗忘受到特定训练任务和模型本身的双重影响。为此，我们通过分析函数矢量(FV)，即LLM中函数的紧凑表示，为CF的发生提供了一个依赖模型的指标。通过理论和实证分析，我们证明了LLMs中的CF主要源于功能激活的偏差，而不是任务处理功能的覆盖。利用这些见解，我们提出了一种新的函数矢量指导训练方法，引入正则化技术以稳定FV并减轻遗忘。在四个基准测试上的实验证明了我们提出的训练方法的有效性，支持了我们关于CF和模型功能动态的理论框架。我们计划在未来不久提供我们的代码。