LLM2D

摘要

在持续学习（CL）中，模型增长增强了对新数据的适应能力，提高了对更多任务的知识保留。然而，不恰当的模型增长会导致先前学习的知识严重退化，我们将其称为增长诱导遗忘（GIFt），尤其是在使用整个增长模型进行推理的任务无关 CL 中。现有的工作，尽管采用了模型增长和随机初始化以获得更好的适应性，但往往未能认识到由不恰当的模型增长引起的 GIFt 存在。这种疏忽限制了对遗忘的全面控制，并阻碍了模型增长的充分利用。我们是 CL 中第一个识别这个问题并对 GIFt 的根本原因进行深入研究的，其中层扩展在模型增长策略中脱颖而出，扩大了层而不影响模型功能。然而，直接采用层扩展存在挑战。它缺乏数据驱动的控制和扩展参数的初始化，以平衡适应性和知识保留。本文提出了一种新的 SparseGrow 方法，以克服 GIFt 问题，同时增强对新数据的适应性。SparseGrow 采用数据驱动的稀疏层扩展来控制增长过程中的高效参数使用，减少过度增长和功能变化带来的 GIFt。它还将稀疏增长与训练后期的数据初始化相结合，创建部分为 0 值的扩展，以适应学习到的分布，增强保留和适应性。为了进一步减少遗忘，通过计算稀疏掩码应用冻结，允许数据驱动地保留重要参数。通过在具有各种设置、案例和任务数量的数据集上的实验，我们证明了层扩展的必要性，并展示了 SparseGrow 在克服 GIFt 方面的有效性，突出了其对增量任务的适应性和知识保留。