摘要
arXiv:2505.09343v1 类型:交叉
摘要:大规模语言模型(LLMs)的快速扩展揭示了当前硬件架构的关键局限性,包括内存容量、计算效率和互连带宽的限制。DeepSeek-V3 在 2048 块 NVIDIA H800 GPU 上进行训练,展示了如何通过硬件感知的模型协同设计有效地应对这些挑战,从而实现大规模的成本效益训练和推理。本文深入分析了 DeepSeek-V3/R1 模型架构及其 AI 基础设施,强调了包括多头潜在注意(MLA)以提高内存效率、专家混合架构(MoE)以优化计算-通信权衡、混合精度 FP8 训练以充分利用硬件能力以及多平面网络拓扑以最小化集群级网络开销在内的关键创新。基于在 DeepSeek-V3 开发过程中遇到的硬件瓶颈,我们与学术界和业界同行进行了更广泛的讨论,探讨了未来的潜在硬件发展方向,包括精确的低精度计算单元、规模化收敛以及低延迟通信网络架构的进步。这些见解突显了硬件与模型协同设计在应对不断增长的 AI 工作负载需求方面的关键作用,为下一代 AI 系统的创新提供了实践蓝图。