摘要
训练拥有数十亿参数的超大型语言模型 (LLM) 是一项计算密集型任务,它挑战着当前数据并行训练系统的极限。尽管 ZeRO++ 等技术已实现这类巨型模型在低带宽廉价集群上的高效分布式训练,但由于用于减少跨机器通信的层次化分区 (hpZ) 方案中潜在的竞争条件,它们可能会遇到收敛问题。在本研究中,我们首先展示了这些竞争条件如何在训练数十亿参数模型时导致不稳定。然后,我们提出了一种对分区算法的改进,它在保持竞争性训练效率的同时解决了这些收敛挑战。对训练数十亿参数的 Falcon 模型和 Llama-2 模型的实证评估表明,更新后的算法能够在这些大型模型上实现可靠的收敛,而标准 ZeRO++ hpZ 则无法收敛。更新后的算法能够以 98% 的吞吐量和模型训练速度提升来训练更大的模型,而不会牺牲收敛质量。