摘要
arXiv:2504.07866v1 宣布类型: cross
摘要: 我们介绍了拥有1350亿参数的Pangu Ultra大型语言模型(LLM),该模型在昇腾神经处理单元(Ascend NPUs)上通过密集的Transformer模块进行了训练。尽管近年来大型语言模型领域在推动其规模和能力方面取得了前所未有的进展,但训练如此大规模的模型仍然涉及重大的优化和系统挑战。为了稳定训练过程,我们提出了深度缩放三明治归一化,该方法有效地在深度模型的训练过程中消除了损失峰值。我们在13.2万亿个多样且高质量的标记上对模型进行了预训练,并在后续训练中进一步增强了其推理能力。为了高效地进行大规模训练,我们利用8,192个昇腾NPUs并结合了一系列系统优化。在多个多样基准上的评估显示,Pangu Ultra在稠密LLM(如Llama 405B和Mistral Large 2)的能力方面显著提升了最先进的水平,并且其性能甚至与DeepSeek-R1相当,尽管其稀疏模型结构包含更多的参数。我们的探索表明,昇腾NPUs能够高效且有效地训练超过100亿参数的数量密集模型。我们的模型和系统将可供我们的商业客户使用。