LLM2D

摘要

arXiv:2412.07210v2 分布式训练类型: 替换-交叉摘要：分布式训练方法对于大型语言模型（LLMs）至关重要。然而，现有的分布式训练方法往往在异构或大规模环境中受到通信瓶颈、慢节点和弹性有限的问题困扰。本地SGD方法已被提出以解决这些问题，但由于额外的内存开销以及效率和稳定性方面的不足，其在大规模训练中的有效性仍受到限制。为了应对这些问题，我们提出了EDiT，这是一种创新的高效分布式训练方法，结合了定制化的本地SGD方法和模型分割技术，以增强大规模训练的效率。EDiT在前向传递过程中按层执行参数同步，从而减少通信和内存开销，并允许操作重叠。此外，EDiT采用伪梯度惩罚策略来抑制损失尖峰，这确保了训练的稳定性并提高了性能。另外，我们引入了A-EDiT，这是一种完全异步的EDiT变体，适用于异构集群。基于EDiT/A-EDiT，我们进行了一系列实验来验证LLMs的大规模异步训练，并进行了全面分析。实验结果表明EDiT/A-EDiT的优越性能，确立了它们作为分布式LLM训练的稳健解决方案的地位，适用于多种计算生态系统。相关代码可在Atorch代码库中找到：https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd。