LLM2D

摘要

arXiv:2502.11019v1 类型: cross 摘要：灾难性遗忘（CF）在机器学习中构成了重大挑战，当模型学会新任务时，会忘记之前学习到的信息。尽管大型语言模型（LLMs）具有先进的能力，但在持续学习过程中，它们仍然面临CF的挑战。现有的大部分研究集中在通过单一训练序列分析遗忘模式，从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了各种设置下的CF，发现模型的遗忘不仅受到特定训练任务的影响，还受到模型本身的影响。为此，我们通过检查功能向量（FV）来解释遗忘，FV是LLMs中函数的一种紧凑表示，提供了一种依赖于模型的CF发生指标。通过理论和实证分析，我们证明CF在LLMs中的主要原因是功能激活的偏差，而不是任务处理功能的覆盖。利用这些见解，我们提出了一种新的功能向量指导训练方法，引入正则化技术来稳定FV并减轻遗忘。在四个基准上的实验测试证实了我们提出训练方法的有效性，支持了我们关于CF和模型功能动力学的理论框架。我们计划在未来不久公开我们的代码。