LLM2D
Pangu Ultra:在Ascend NPUs上推动密集大规模语言模型的极限
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
作者: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.07866v2

摘要

arXiv:2504.07866v2 公告类型: replace-cross 摘要:我们提出了Pangu Ultra,这是一个参数量为1350亿的大型语言模型(LLM),并在Ascend神经处理单元(NPUs)上进行了稠密Transformer模块的训练。近年来,大型语言模型领域见证了前所未有的进展,推动了LLM规模和能力的提升,但在训练如此大规模的模型时仍然面临着显著的优化和系统挑战。为了稳定训练过程,我们提出了一种深度缩放三明治归一化方法,该方法在深度模型的训练过程中有效地消除了损失峰值。我们在包含13.2万亿个多样且高质量的标记的数据集上对该模型进行了预训练,并在其后训练过程中进一步增强了其推理能力。为了高效地进行大规模训练,我们利用了8192个Ascend NPUs,并进行了系列系统优化。在多个多样化的基准测试中的评估表明,Pangu Ultra显着提升了稠密LLM(如Llama 405B和Mistral Large 2)的现有技术水平,并且甚至在具有更大量参数的稀疏模型结构中,其性能与DeepSeek-R1相当。我们的探索表明,Ascend NPUs能够高效且有效地训练具有超过100亿参数的密集模型。我们的模型和系统将提供给我们的商业客户。