LLM2D

摘要

大型语言模型（LLMs）的扩展是模型训练和部署效率和有效性的关键研究领域。我们的工作研究了密集模型和专家混合模型（MoE）之间扩展定律的可迁移性和差异。通过理论分析和大量实验的结合，包括一致的损失缩放、最佳批次大小和学习率缩放以及资源分配策略缩放，我们的研究结果表明，幂律缩放框架也适用于 MoE 模型，表明即使架构不同，这些模型的缩放行为的根本原则也得以保留。此外，MoE 模型表现出优越的泛化能力，与密集模型相比，在相同的训练计算预算下，测试损失更低。这些发现表明了 MoE 模型的缩放一致性和迁移泛化能力，为优化 MoE 模型训练和部署策略提供了新的见解。