LLM2D
异步随机梯度下降与解耦反传播及层-wise更新
Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates
作者: Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas K\"onig, David Kappel, Anand Subramoney
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2410.05985v3

摘要

arXiv:2410.05985v3 宣告类型: 替换-交叉 摘要:深度学习模型的不断增加的规模使跨多个设备进行分布式培训变得必不可少。然而,当前的方法,如分布式数据并行培训,在跨设备培训时由于大量通信和同步开销导致作业性能不理想,从而增加了训练时间。异步随机梯度下降(ASGD)方法可以提高训练速度,但对通信延迟和吞吐量差异的延迟敏感。此外,ASGD工人内部的反向传播算法由于其正向和反向传递之间的交织而成为瓶颈。当前的方法也没有利用正向传递和反向传递所需计算量的巨大差异。因此,我们提出了一个名为部分解耦ASGD(PD-ASGD)的ASGD扩展,以解决这些问题。PD-ASGD使用单独的线程进行正向和反向传递,解耦更新,允许正向线程与反向线程的比例高于通常的1:1比例,从而提高吞吐量。PD-ASGD还在多个线程中并行执行层(部分)模型更新。这减少了参数陈旧性,从而提高了对延迟的鲁棒性。在存在延迟的情况下,我们的方法的运行速度可达到接近当前最先进的结果,并比同步数据并行快$5.95\times$,比可比的ASGD算法快$2.14\times$,因为模型乘法器的利用率更高。我们描述了该方法引入的梯度偏差,建立了上限,并证明了收敛性。