LLM2D

摘要

arXiv:2501.04266v2 通知类型: 替换-交叉摘要：扩大大型语言模型（LLM）训练涉及将大量训练参数分布在有限数量的工人中。然而，像ZeRO-3这样的方法虽然大幅减少了GPU内存压力，但往往需要大量的通信以确保全局同步和一致性。现有的努力如ZeRO++使用次级分区来避免节点间通信，因为在节点内GPU-GPU传输通常具有更高的带宽和更低的延迟。然而，随着像Frontier这样的更加先进的基础设施出现，配备了AMD GPU的设施具有令人印象深刻的计算能力，因此有必要对硬件拓扑进行调查，并开发有针对性的策略以提高训练效率。在这项工作中，我们提出了一系列ZeRO++的通信和优化策略，以减少通信成本并提高内存利用率。在这项论文中，我们专门为当前排名第二的超级计算集群Frontier提出了三层分层次分区，旨在利用不同层通信（GCD-GCD、GPU-GPU 和节点间）中的各种带宽来减少通信开销。对于一个20B的GPT模型，与ZeRO++中的384 GCD相比，我们观察到每GPU的TFLOPS增加了1.71倍，并且对于最多384 GCD，扩展效率为0.94。