LLM2D

摘要

将预训练的稠密语言模型升级为稀疏专家混合模型 (MoE) 是提高已训练模型容量的一种有效方法。然而，大规模升级的最佳技术仍不清楚。在本研究中，我们对十亿参数规模语言模型的升级方法和超参数进行了广泛研究。我们提出了一种新颖的“虚拟组”初始化方案和权重缩放方法，以实现对细粒度 MoE 架构的升级。通过消融实验，我们发现升级优于继续训练稠密模型。此外，我们还发现 softmax-then-topK 专家路由优于 topK-then-softmax 方法，并且更高粒度的 MoE 可以帮助提高准确性。最后，我们在 1T 个 token 上对 Nemotron-4 15B 模型进行了升级，并将它与在相同 1T 个 token 上持续训练的相同模型版本进行了比较：持续训练的模型在 MMLU 上取得了 65.3% 的成绩，而升级后的模型则取得了 67.6% 的成绩。我们的结果为有效利用升级构建 MoE 语言模型提供了见解和最佳实践。