LLM2D
克服任务无关持续学习中增长引起的遗忘问题
Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning
作者: Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2408.10566v4

摘要

在持续学习(CL)中,模型增长增强了对新数据的适应能力,提高了对更多任务的知识保留。然而,不恰当的模型增长会导致先前学习的知识严重退化,我们将其称为增长诱导遗忘(GIFt),尤其是在使用整个增长模型进行推理的任务无关 CL 中。现有的工作,尽管采用了模型增长和随机初始化以获得更好的适应性,但往往未能认识到由不恰当的模型增长引起的 GIFt 存在。这种疏忽限制了对遗忘的全面控制,并阻碍了模型增长的充分利用。我们是 CL 中第一个识别这个问题并对 GIFt 的根本原因进行深入研究的,其中层扩展在模型增长策略中脱颖而出,扩大了层而不影响模型功能。然而,直接采用层扩展存在挑战。它缺乏数据驱动的控制和扩展参数的初始化,以平衡适应性和知识保留。本文提出了一种新的 SparseGrow 方法,以克服 GIFt 问题,同时增强对新数据的适应性。SparseGrow 采用数据驱动的稀疏层扩展来控制增长过程中的高效参数使用,减少过度增长和功能变化带来的 GIFt。它还将稀疏增长与训练后期的数据初始化相结合,创建部分为 0 值的扩展,以适应学习到的分布,增强保留和适应性。为了进一步减少遗忘,通过计算稀疏掩码应用冻结,允许数据驱动地保留重要参数。通过在具有各种设置、案例和任务数量的数据集上的实验,我们证明了层扩展的必要性,并展示了 SparseGrow 在克服 GIFt 方面的有效性,突出了其对增量任务的适应性和知识保留。