LLM2D
Domino:通过通用张量切片和重叠消除LLM训练中的通信
Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15241v1

摘要

arXiv:2409.15241v1 公告类型: 交叉 摘要: 鉴于生成式AI的普及,大型语言模型(LLMs)通常需要数百或数千个GPU来并行化和加速训练过程。在扩展训练LLMs时,通信开销变得更加显著。为了消除分布式LLM训练中的通信开销,我们提出了Domino,它提供了一种通用方案,将通信隐藏在计算之后。通过将单个批次训练的数据依赖性分解为更小的独立部分,Domino将这些独立部分的训练流水线化,并提供了细粒度通信和计算重叠的通用策略。广泛的实验结果表明,与Megatron-LM相比,Domino在Nvidia DGX-H100 GPU上实现了高达1.3倍的LLM训练加速。