摘要
大型语言模型(LLMs)的扩展是模型训练和部署效率和有效性的关键研究领域。我们的工作研究了密集模型和专家混合模型(MoE)之间扩展定律的可迁移性和差异。通过理论分析和大量实验的结合,包括一致的损失缩放、最佳批次大小和学习率缩放以及资源分配策略缩放,我们的研究结果表明,幂律缩放框架也适用于 MoE 模型,表明即使架构不同,这些模型的缩放行为的根本原则也得以保留。此外,MoE 模型表现出优越的泛化能力,与密集模型相比,在相同的训练计算预算下,测试损失更低。这些发现表明了 MoE 模型的缩放一致性和迁移泛化能力,为优化 MoE 模型训练和部署策略提供了新的见解。