LLM2D

摘要

arXiv:2409.15241v1 公告类型: 交叉摘要: 鉴于生成式AI的普及，大型语言模型（LLMs）通常需要数百或数千个GPU来并行化和加速训练过程。在扩展训练LLMs时，通信开销变得更加显著。为了消除分布式LLM训练中的通信开销，我们提出了Domino，它提供了一种通用方案，将通信隐藏在计算之后。通过将单个批次训练的数据依赖性分解为更小的独立部分，Domino将这些独立部分的训练流水线化，并提供了细粒度通信和计算重叠的通用策略。广泛的实验结果表明，与Megatron-LM相比，Domino在Nvidia DGX-H100 GPU上实现了高达1.3倍的LLM训练加速。