LLM2D
将大型语言模型升级为专家混合模型
Upcycling Large Language Models into Mixture of Experts
作者: Ethan He, Abhinav Khattar, Ryan Prenger, Vijay Korthikanti, Zijie Yan, Tong Liu, Shiqing Fan, Ashwath Aithal, Mohammad Shoeybi, Bryan Catanzaro
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07524v1

摘要

将预训练的稠密语言模型升级为稀疏专家混合模型 (MoE) 是提高已训练模型容量的一种有效方法。然而,大规模升级的最佳技术仍不清楚。在本研究中,我们对十亿参数规模语言模型的升级方法和超参数进行了广泛研究。我们提出了一种新颖的“虚拟组”初始化方案和权重缩放方法,以实现对细粒度 MoE 架构的升级。通过消融实验,我们发现升级优于继续训练稠密模型。此外,我们还发现 softmax-then-topK 专家路由优于 topK-then-softmax 方法,并且更高粒度的 MoE 可以帮助提高准确性。最后,我们在 1T 个 token 上对 Nemotron-4 15B 模型进行了升级,并将它与在相同 1T 个 token 上持续训练的相同模型版本进行了比较:持续训练的模型在 MMLU 上取得了 65.3% 的成绩,而升级后的模型则取得了 67.6% 的成绩。我们的结果为有效利用升级构建 MoE 语言模型提供了见解和最佳实践。