LLM2D

摘要

arXiv:2504.07866v2 公告类型: replace-cross 摘要：我们提出了Pangu Ultra，这是一个参数量为1350亿的大型语言模型（LLM），并在Ascend神经处理单元（NPUs）上进行了稠密Transformer模块的训练。近年来，大型语言模型领域见证了前所未有的进展，推动了LLM规模和能力的提升，但在训练如此大规模的模型时仍然面临着显著的优化和系统挑战。为了稳定训练过程，我们提出了一种深度缩放三明治归一化方法，该方法在深度模型的训练过程中有效地消除了损失峰值。我们在包含13.2万亿个多样且高质量的标记的数据集上对该模型进行了预训练，并在其后训练过程中进一步增强了其推理能力。为了高效地进行大规模训练，我们利用了8192个Ascend NPUs，并进行了系列系统优化。在多个多样化的基准测试中的评估表明，Pangu Ultra显着提升了稠密LLM（如Llama 405B和Mistral Large 2）的现有技术水平，并且甚至在具有更大量参数的稀疏模型结构中，其性能与DeepSeek-R1相当。我们的探索表明，Ascend NPUs能够高效且有效地训练具有超过100亿参数的密集模型。我们的模型和系统将提供给我们的商业客户。