LLM2D
异步随机梯度下降法:解耦反向传播与逐层更新
Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates
作者: Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas K\"onig, David Kappel, Anand Subramoney
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05985v1

摘要

随着深度学习模型规模的不断扩大,人们迫切需要更有效的替代方案来替代标准误差反向传播算法,以更好地利用异步、并行和分布式计算。反向传播的一个主要缺点是算法的前向阶段(计算全局损失)和后向阶段(将损失反向传播到所有层以计算用于更新网络参数的梯度)之间相互依赖。为了解决这个问题,我们提出了一种方法,通过异步地从多个线程更新模型各层来并行化 SGD 更新。此外,由于我们观察到前向传递通常比后向传递快得多,因此我们使用单独的线程进行前向和后向传递计算,这使得我们可以使用比通常的 1:1 比例更高的前向到后向线程比例,从而减少参数的整体陈旧性。因此,我们的方法使用单独的线程进行损失(前向)和梯度(后向)计算,并以分布式方式对参数进行逐层部分更新,来执行异步随机梯度下降。我们证明了这种方法在运行速度比 Hogwild! 提高高达 2.97 倍(在多个设备上进行局部分区异步并行 SGD 扩展)的同时,可以获得接近最先进的结果。我们使用基于随机微分方程和漂移扩散过程的新理论框架,通过将异步参数更新建模为随机过程,从理论上证明了该算法的收敛性。