LLM2D
大规模启动:基于GPU的超级计算机上的高性能集合通信
The Big Send-off: High Performance Collectives on GPU-based Supercomputers
作者: Siddharth Singh, Mahua Singh, Abhinav Bhatele
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18658v1

摘要

arXiv:2504.18658v1 通信类型:交叉 摘要:我们评估了基于GPU的超级计算机上大规模语言模型(LLM)训练的当前集体通信状态。现有的库如RCCL和Cray-MPICH在系统如Frontier上表现出关键的局限性——Cray-MPICH未能充分利用网络和计算资源,而RCCL则面临严重的可扩展性问题。为了应对这些挑战,我们引入了PCCL,这是一种专为分布式深度学习工作负载优化的通信库,具有所有聚合和减少散列操作的高性能实现。PCCL旨在最大化利用所有可用的网络和计算资源,并且能够高效地扩展到数千个GPU。它实现了显著的性能改进,在Frontier的2048个GCD上,PCCL在所有聚合操作上的性能比RCCL提高了6-33倍,比Cray-MPICH提高了28-70倍。这些收益直接转化为端到端的性能:在大规模GPT-3风格的训练中,PCCL分别在7B参数模型和13B参数模型上提供了高达60%和40%的性能提升。