LLM2D
在低带宽分区下于Frontier上规模化语言模型训练
Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning
发布日期: 2/5/2025
arXiv ID: 2501.04266

摘要

arXiv:2501.04266v2 通知类型: 替换-交叉 摘要:扩大大型语言模型(LLM)训练涉及将大量训练参数分布在有限数量的工人中。然而,像ZeRO-3这样的方法虽然大幅减少了GPU内存压力,但往往需要大量的通信以确保全局同步和一致性。现有的努力如ZeRO++使用次级分区来避免节点间通信,因为在节点内GPU-GPU传输通常具有更高的带宽和更低的延迟。然而,随着像Frontier这样的更加先进的基础设施出现,配备了AMD GPU的设施具有令人印象深刻的计算能力,因此有必要对硬件拓扑进行调查,并开发有针对性的策略以提高训练效率。在这项工作中,我们提出了一系列ZeRO++的通信和优化策略,以减少通信成本并提高内存利用率。在这项论文中,我们专门为当前排名第二的超级计算集群Frontier提出了三层分层次分区,旨在利用不同层通信(GCD-GCD、GPU-GPU 和节点间)中的各种带宽来减少通信开销。对于一个20B的GPT模型,与ZeRO++中的384 GCD相比,我们观察到每GPU的TFLOPS增加了1.71倍,并且对于最多384 GCD,扩展效率为0.94。