摘要
稀疏激活的混合专家模型(MoE)在扩展大型语言模型(LLMs)方面越来越受欢迎,且不会导致计算成本激增。尽管取得了成功,当前的设计面临一个挑战,即所有专家的规模相同,限制了令牌选择最适合生成下一个令牌的专家规模的能力。本文提出了一种新的MoE架构——多样规模专家混合模型(MoDSE),其层设计包含不同规模的专家。我们对困难令牌生成任务的分析表明,不同规模的专家能够实现更好的预测,并且在训练周期后,专家的路由路径趋于稳定。然而,专家规模多样性可能导致工作负载分布不均。为解决这一局限性,我们引入了一种专家对分配策略,以在多个GPU上均匀分配工作负载。在多个基准上的综合评估显示,MoDSE的有效性,它在保持总参数规模和专家数量不变的情况下,通过自适应地将参数预算分配给专家,优于现有的MoE。