LLM2D

摘要

随着深度学习模型规模的不断扩大，人们迫切需要更有效的替代方案来替代标准误差反向传播算法，以更好地利用异步、并行和分布式计算。反向传播的一个主要缺点是算法的前向阶段（计算全局损失）和后向阶段（将损失反向传播到所有层以计算用于更新网络参数的梯度）之间相互依赖。为了解决这个问题，我们提出了一种方法，通过异步地从多个线程更新模型各层来并行化 SGD 更新。此外，由于我们观察到前向传递通常比后向传递快得多，因此我们使用单独的线程进行前向和后向传递计算，这使得我们可以使用比通常的 1:1 比例更高的前向到后向线程比例，从而减少参数的整体陈旧性。因此，我们的方法使用单独的线程进行损失（前向）和梯度（后向）计算，并以分布式方式对参数进行逐层部分更新，来执行异步随机梯度下降。我们证明了这种方法在运行速度比 Hogwild! 提高高达 2.97 倍（在多个设备上进行局部分区异步并行 SGD 扩展）的同时，可以获得接近最先进的结果。我们使用基于随机微分方程和漂移扩散过程的新理论框架，通过将异步参数更新建模为随机过程，从理论上证明了该算法的收敛性。