摘要
稀疏专家混合模型 (SMoE) 已广泛用于提高基于 Transformer 的基础模型的训练和推理效率,并取得了可喜的成果。然而,SMoE 的性能严重依赖于超参数的选择,例如专家的数量和要激活的专家数量(称为 top-k),导致由于搜索各种超参数配置而进行的广泛模型训练带来了巨大的计算开销。为解决这个问题,我们引入了动态专家混合模型 (DynMoE) 技术。DynMoE 集成了:(1) 一种新颖的门控方法,使每个 token 都能自动确定要激活的专家数量;(2) 一个自适应过程,可在训练过程中自动调整专家的数量。在视觉、语言和视觉语言任务上的大量数值结果表明,我们的方法在与 GMoE(用于视觉和语言任务)和 MoE-LLaVA(用于视觉语言任务)相比取得了具有竞争力的性能,同时通过激活较少的参数来保持效率。我们的代码可在 https://github.com/LINs-lab/DynMoE 获取。