LLM2D
跨模型架构的扩展规律:大型语言模型中稠密模型和 MoE 模型的比较分析
Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models
作者: Siqi Wang, Zhengyu Chen, Bei Li, Keqing He, Min Zhang, Jingang Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05661v1

摘要

大型语言模型(LLMs)的扩展是模型训练和部署效率和有效性的关键研究领域。我们的工作研究了密集模型和专家混合模型(MoE)之间扩展定律的可迁移性和差异。通过理论分析和大量实验的结合,包括一致的损失缩放、最佳批次大小和学习率缩放以及资源分配策略缩放,我们的研究结果表明,幂律缩放框架也适用于 MoE 模型,表明即使架构不同,这些模型的缩放行为的根本原则也得以保留。此外,MoE 模型表现出优越的泛化能力,与密集模型相比,在相同的训练计算预算下,测试损失更低。这些发现表明了 MoE 模型的缩放一致性和迁移泛化能力,为优化 MoE 模型训练和部署策略提供了新的见解。