LLM2D
基于局部SGD的高效分布式训练方法用于大型语言模型
EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models
作者: Jialiang Cheng, Ning Gao, Yun Yue, Zhiling Ye, Jiadi Jiang, Jian Sha
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.07210v2

摘要

arXiv:2412.07210v2 分布式训练类型: 替换-交叉 摘要:分布式训练方法对于大型语言模型(LLMs)至关重要。然而,现有的分布式训练方法往往在异构或大规模环境中受到通信瓶颈、慢节点和弹性有限的问题困扰。本地SGD方法已被提出以解决这些问题,但由于额外的内存开销以及效率和稳定性方面的不足,其在大规模训练中的有效性仍受到限制。为了应对这些问题,我们提出了EDiT,这是一种创新的高效分布式训练方法,结合了定制化的本地SGD方法和模型分割技术,以增强大规模训练的效率。EDiT在前向传递过程中按层执行参数同步,从而减少通信和内存开销,并允许操作重叠。此外,EDiT采用伪梯度惩罚策略来抑制损失尖峰,这确保了训练的稳定性并提高了性能。另外,我们引入了A-EDiT,这是一种完全异步的EDiT变体,适用于异构集群。基于EDiT/A-EDiT,我们进行了一系列实验来验证LLMs的大规模异步训练,并进行了全面分析。实验结果表明EDiT/A-EDiT的优越性能,确立了它们作为分布式LLM训练的稳健解决方案的地位,适用于多种计算生态系统。相关代码可在Atorch代码库中找到:https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd。