摘要
arXiv:2504.12463v1 Announce Type: cross
摘要:混合专家(MoE)预训练比密集Transformer预训练更具可扩展性,因为MoE学习将输入导向其前向参数的一个稀疏子集。然而,这意味着MoE只接收稀疏的反向更新,导致训练不稳定性和次优性能。我们提出了一种轻量级的近似方法,给MoE路由器提供密集梯度更新,同时继续稀疏激活其参数。我们称这种方法为Default MoE,它用专家输出的指数移动平均值作为默认输出来替换缺失的专家激活。这使得路由器可以为每个标记从每个专家获得信号,从而显著提高了训练性能。我们的Default MoE在多种设置下优于标准的TopK路由,而无需显著增加计算开销。代码:https://github.com/vatsal0/default-moe。