LLM2D

摘要

arXiv:2410.05985v2 宣布类型: 替换交叉摘要：深度学习模型的规模不断扩大，使得跨多个设备进行分布式训练变得必不可少。然而，现有的方法，如分布式数据并行训练，在跨设备进行训练时会因大量通信和同步开销而受到影响，导致由于硬件利用不足而导致训练时间延长。异步随机梯度下降(ASGD)方法可以提高训练速度，但对通信延迟以及吞吐量差异的延迟非常敏感。此外，ASGD工作节点内部的反向传播算法由于正向传播和反向传播之间的交叠而成为瓶颈。当前的方法也没有充分利用正向传播和反向传播所需计算量的巨大差异。因此，我们提出了一种名为部分解耦ASGD(PD-ASGD)的ASGD扩展方法，以解决这些问题。PD-ASGD使用单独的线程进行正向传播和反向传播，解耦更新，允许正向传播线程与反向传播线程的比例高于常规的1:1比例，从而提高吞吐量。PD-ASGD还在多个线程中并行执行层间(部分)模型更新。这减少了参数过时，并因此提高了对延迟的鲁棒性。我们的方法在存在延迟的情况下相对于同步数据并行性快5.95倍，通过实现更高的模型FLOPs利用率，相比相似的ASGD算法快2.14倍。我们在存在延迟的情况下，以接近最先进的结果运行，并证明了我们的方法引入了梯度偏差，建立了上界，并证明了收敛性。