LLM2D

摘要

语言模型（LM）展现出令人印象深刻的性能和泛化能力。然而，LM 仍然面临着灾难性遗忘的持续挑战，这阻碍了它们在持续学习（CL）中的长期可持续性。现有方法通常通过将旧任务数据或任务特定的归纳偏差融入 LM 来解决这个问题。然而，旧数据和准确的任务信息往往不可用或收集成本很高，阻碍了当前 CL 方法在 LM 中的可用性。为了解决这一局限性，我们引入了 $\textbf{MIGU}$（$\textbf{M}$agn$\textbf{I}$tude-based $\textbf{G}$radient $\textbf{U}$pdating for continual learning），一种免重演且免任务标签的方法，它只用 LM 线性层中输出幅度较大的参数更新模型参数。MIGU 基于我们对 LM 线性层输出的 L1 归一化幅度分布在 LM 模型处理不同任务数据时不同的观察。通过对梯度更新过程施加这个简单的约束，我们可以利用 LM 的内在行为，从而释放它们的内在 CL 能力。我们的实验表明，MIGU 普遍适用于所有三种 LM 架构（T5、RoBERTa 和 Llama2），在四个 CL 基准上的持续微调和持续预训练设置中均取得了最先进或相当的性能。例如，MIGU 在一个 15 任务 CL 基准上比传统的参数高效微调基线平均提高了 15.2% 的准确率。MIGU 还可以无缝地与所有三种现有的 CL 类型集成，以进一步提高性能。代码可在 https://github.com/wenyudu/MIGU 获取。