摘要
大型语言模型 (LLM) 在多个行业中的广泛应用导致了对 GPU 的巨大需求激增。训练 LLM 需要数万个 GPU,并将它们安置在同一个数据中心 (DC) 变得越来越具有挑战性。我们专注于通过广域网 (WAN) 连接的多个 DC 跨多个 DC 训练此类模型。我们构建了 ATLAS,它使用新颖的时间带宽共享和许多其他设计选择来加快这种训练时间。虽然 ATLAS 提高了训练时间,但它并没有消除空闲周期(空闲 GPU 周期)。我们构建了 BUBBLETEA,它在空闲周期中运行预填充即服务(LM 推理的一部分),从而在不影响训练的情况下大幅提高了 GPU 利用率。ATLAS 和 BUBBLETEA 共同将训练时间缩短了高达 17 倍,并将 GPU 利用率提高到了 94%。