LLM2D

摘要

持续学习 (CL) 因其能够适应随着时间推移而出现的新的任务而备受关注。灾难性遗忘 (对旧任务的遗忘) 被认为是 CL 中的一个主要问题，因为模型会适应新的任务。混合专家 (MoE) 模型最近被证明能够有效地缓解 CL 中的灾难性遗忘，方法是使用门控网络稀疏化和分配多个专家之间的不同任务。然而，缺乏对 MoE 及其对 CL 学习性能影响的理论分析。本文首次通过超参数化线性回归任务的视角，提供了关于 MoE 在 CL 中的影响的理论结果。我们通过证明 MoE 模型可以使它的专家多元化以专门处理不同的任务，而它的路由器学习为每个任务选择合适的专家并平衡所有专家的负载，从而确定了 MoE 比单个专家的优势。我们的研究进一步表明了一个有趣的事实，即 CL 中的 MoE 需要在足够多的训练轮次后终止门控网络的更新才能实现系统收敛，这在现有的不考虑持续任务到达的 MoE 研究中是不需要的。此外，我们提供了预期遗忘和总体泛化误差的明确表达式，以描述 MoE 在 CL 学习性能中的优势。有趣的是，添加更多专家需要额外的轮次才能收敛，这可能不会提高学习性能。最后，我们在合成数据集和真实数据集上进行了实验，将这些线性模型的见解扩展到深度神经网络 (DNN)，这也阐明了 MoE 在 CL 中的实际算法设计。