LLM2D
密集反向传播改进了稀疏混合专家模型的训练
Dense Backpropagation Improves Training for Sparse Mixture-of-Experts
作者: Ashwinee Panda, Vatsal Baherwani, Zain Sarwar, Benjamin Therien, Supriyo Chakraborty, Tom Goldstein
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.12463v2

摘要

arXiv:2504.12463v2 Announce Type: replace-cross 摘要:专家混合(MoE)预训练比密集Transformer预训练更具可扩展性,因为MoE学习将输入路由到其前向参数的一个稀疏集合。然而,这意味著MoE只接收一个稀疏的反向更新,导致训练不稳定性和次优性能。我们提出了一种轻量级的近似方法,该方法使得MoE路由器接收密集的梯度更新,同时继续稀疏激活其参数。我们称之为Default MoE的方法,用以前训练过程中见过的专家输出的指数移动平均值代替缺失的专家激活。这使得路由器能够为每个令牌从每个专家接收到信号,从而显著改善了训练性能。我们的Default MoE在多种设置下优于标准的TopK路由,而无需显著增加计算开销。代码:https://github.com/vatsal0/default-moe。