摘要
arXiv:2501.04266v2 通知类型: 替换-交叉
摘要:扩大大型语言模型(LLM)训练涉及将大量训练参数分布在有限数量的工人中。然而,像ZeRO-3这样的方法虽然大幅减少了GPU内存压力,但往往需要大量的通信以确保全局同步和一致性。现有的努力如ZeRO++使用次级分区来避免节点间通信,因为在节点内GPU-GPU传输通常具有更高的带宽和更低的延迟。然而,随着像Frontier这样的更加先进的基础设施出现,配备了AMD GPU的设施具有令人印象深刻的计算能力,因此有必要对硬件拓扑进行调查,并开发有针对性的策略以提高训练效率。在这项工作中,我们提出了一系列ZeRO++的通信和优化策略,以减少通信成本并提高内存利用率。在这项论文中,我们专门为当前排名第二的超级计算集群Frontier提出了三层分层次分区,旨在利用不同层通信(GCD-GCD、GPU-GPU 和节点间)中的各种带宽来减少通信开销。对于一个20B的GPT模型,与ZeRO++中的384 GCD相比,我们观察到每GPU的TFLOPS增加了1.71倍,并且对于最多384 GCD,扩展效率为0.94。