LLM2D

摘要

arXiv:2504.18658v1 通信类型：交叉摘要：我们评估了基于GPU的超级计算机上大规模语言模型（LLM）训练的当前集体通信状态。现有的库如RCCL和Cray-MPICH在系统如Frontier上表现出关键的局限性——Cray-MPICH未能充分利用网络和计算资源，而RCCL则面临严重的可扩展性问题。为了应对这些挑战，我们引入了PCCL，这是一种专为分布式深度学习工作负载优化的通信库，具有所有聚合和减少散列操作的高性能实现。PCCL旨在最大化利用所有可用的网络和计算资源，并且能够高效地扩展到数千个GPU。它实现了显著的性能改进，在Frontier的2048个GCD上，PCCL在所有聚合操作上的性能比RCCL提高了6-33倍，比Cray-MPICH提高了28-70倍。这些收益直接转化为端到端的性能：在大规模GPT-3风格的训练中，PCCL分别在7B参数模型和13B参数模型上提供了高达60%和40%的性能提升。