LLM2D

摘要

稀疏激活的混合专家模型（MoE）在扩展大型语言模型（LLMs）方面越来越受欢迎，且不会导致计算成本激增。尽管取得了成功，当前的设计面临一个挑战，即所有专家的规模相同，限制了令牌选择最适合生成下一个令牌的专家规模的能力。本文提出了一种新的MoE架构——多样规模专家混合模型（MoDSE），其层设计包含不同规模的专家。我们对困难令牌生成任务的分析表明，不同规模的专家能够实现更好的预测，并且在训练周期后，专家的路由路径趋于稳定。然而，专家规模多样性可能导致工作负载分布不均。为解决这一局限性，我们引入了一种专家对分配策略，以在多个GPU上均匀分配工作负载。在多个基准上的综合评估显示，MoDSE的有效性，它在保持总参数规模和专家数量不变的情况下，通过自适应地将参数预算分配给专家，优于现有的MoE。