摘要
arXiv:2502.05172v2 宣告类型: replace-cross
摘要:专家混合(Mixture of Experts, MoE)架构在大规模机器学习模型的研究和实际应用中显著提高了计算效率。然而,它们在内存约束下的可扩展性和效率仍然相对未被充分探索。在本文中,我们提出了针对密集型和MoE模型的联合缩放定律,其中包括诸如活跃参数的数量、数据集大小和专家数量等关键因素。我们的发现提供了一个在固定内存和计算预算下选择最佳MoE配置的理论框架。令人惊讶的是,我们证明了MoE模型在内存效率上可能优于密集模型,这与传统的观点相反。为了推导并验证我们缩放定律的理论预测,我们在最多27亿个活跃参数和最多50亿个总参数的情况下进行了超过280次实验。这些结果为在实际大规模训练场景中设计和部署MoE模型提供了实用的见解。