LLM2D

摘要

arXiv:2406.16437v3 公告类型: 替换-交叉摘要：持续学习（CL）因其能够适应时间上到来的新任务而引起了广泛关注。由于模型会适应新任务，灾难性遗忘（遗忘旧任务）已成为CL中的主要问题之一。最近的研究显示，通过使用门控网络将任务在多个专家之间进行稀疏化和分布化，混合专家模型（MoE）能够有效缓解灾难性遗忘。然而，MoE及其对CL学习性能的影响缺乏理论分析。本文提供了通过过参数线性回归任务的观点来刻画MoE在CL中的影响的首个理论结果。我们通过证明MoE模型可以使其专家多样化地专长于不同的任务，同时其路由器学习选择适合每个任务的正确专家并平衡所有专家的工作负荷，来说明MoE相较于单一专家的优势。进一步的研究还表明，MoE在CL中需要在充分训练轮次后终止门控网络的更新，以实现系统收敛，这与现有研究中的MoE不同，这些研究未考虑持续任务的到来。此外，我们为MoE在CL中的学习性能中的遗忘效应和整体泛化误差提供了显式的表达式，以刻画MoE的效果。有趣的是，增加更多的专家可能需要更多的收敛轮次，这可能不会提升学习性能。最后，我们在合成数据集和真实数据集上进行了实验，将这些洞见从线性模型扩展到深度神经网络（DNN），并为MoE在CL中的实际算法设计提供了见解。