LLM2D
神经网络记忆力更强:参数隔离与组合的力量
Neural Networks Remember More: The Power of Parameter Isolation and Combination
作者: Biqing Zeng, Zehan Li, Aladdin Ayesh
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10966v1

摘要

arXiv:2502.10966v1 宣布类型: cross 摘要: 在连续学习过程中,灾难性遗忘是预训练语言模型(PLMs)中的普遍问题,当模型依次在一系列任务上进行训练时,模型会失去之前获得的知识。模型保留旧任务的能力称为稳定性,而适应新任务的能力称为可塑性。因此,解决这个问题的关键在于找到模型可塑性和稳定性的trade-off。为了应对这一问题,本文提出了一种新的方法,以在模型的可塑性和稳定性之间取得平衡,从而减轻灾难性遗忘。具体来说,我们提出的解决方案利用了参数隔离和后续组合策略。在训练阶段,通过参数隔离方法使模型适应每个下游任务,以防止不同任务之间的潜在干扰。然后,我们使用任务算术方法将所有训练后的参数(包含所获得的知识)组合起来,并最终应用于骨干模型。在连续语言学习基准上的实证评估证实了我们方法的有效性,表明其在现有的先进方法上取得了显著的提升。