摘要
arXiv:2504.07866v2 公告类型: replace-cross
摘要:我们提出了Pangu Ultra,这是一个参数量为1350亿的大型语言模型(LLM),并在Ascend神经处理单元(NPUs)上进行了稠密Transformer模块的训练。近年来,大型语言模型领域见证了前所未有的进展,推动了LLM规模和能力的提升,但在训练如此大规模的模型时仍然面临着显著的优化和系统挑战。为了稳定训练过程,我们提出了一种深度缩放三明治归一化方法,该方法在深度模型的训练过程中有效地消除了损失峰值。我们在包含13.2万亿个多样且高质量的标记的数据集上对该模型进行了预训练,并在其后训练过程中进一步增强了其推理能力。为了高效地进行大规模训练,我们利用了8192个Ascend NPUs,并进行了系列系统优化。在多个多样化的基准测试中的评估表明,Pangu Ultra显着提升了稠密LLM(如Llama 405B和Mistral Large 2)的现有技术水平,并且甚至在具有更大量参数的稀疏模型结构中,其性能与DeepSeek-R1相当。我们的探索表明,Ascend NPUs能够高效且有效地训练具有超过100亿参数的密集模型。我们的模型和系统将提供给我们的商业客户。