摘要
arXiv:2412.19437v2 宣告类型: replace-cross
摘要: 我们介绍了DeepSeek-V3,这是一种具有总计671亿参数的强混合专家(MoE)语言模型,每令牌激活37亿参数。为了实现高效的推理和成本效益较高的训练,DeepSeek-V3采用了多头潜在注意(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了彻底验证。此外,DeepSeek-V3率先提出了一种无辅助损失的负载均衡策略,并设置了多令牌预测训练目标以实现更强的性能。我们首先在14.8万亿个多样且高质量的令牌上对DeepSeek-V3进行预训练,随后进行监督微调和强化学习阶段,以充分利用其性能。全面的评估表明,DeepSeek-V3在性能上优于其他开源模型,并达到了与领先封闭源模型相当的性能。尽管其性能卓越,但DeepSeek-V3的全程训练仅需2.788M H800 GPU小时。此外,其训练过程极为稳定。在整个训练过程中,我们没有经历过任何不可恢复的损失激增或任何回滚。该模型的检查点可从https://github.com/deepseek-ai/DeepSeek-V3获取。