LLM2D

摘要

arXiv:2502.05172v1 Announce Type: cross 摘要：专家混合（MoE）架构在大规模机器学习模型的研究和实际应用中显著提高了计算效率。然而，它们在内存限制下的可扩展性和效率仍相对未被充分探索。在本项工作中，我们提出了一种结合活跃参数数量、数据集大小和专家数量等关键因素的联合缩放定律。我们的研究结果提供了一个有原则的框架，用于在固定内存和计算预算下选择最优的MoE配置。令人惊讶的是，我们展示了MoE模型可以在内存效率方面优于密集模型，这与常识相悖。为了推导和验证我们缩放定律的理论预测，我们进行了超过280次实验，涉及多达27亿个活跃参数和多达50亿个总参数。这些结果为在实际大规模训练场景中设计和部署MoE模型提供了可操作的见解。