摘要
arXiv:2502.06728v1 公开发表类型: cross
摘要: 训练大型神经网络模型需要广泛的计算资源,通常分布在多个节点和加速器上。最近的研究表明,可能只需要交换梯度的快速移动部分,同时在本地累积动量(解耦动量,或DeMo)。然而,当考虑更大的模型无法加载到单个加速器上时,梯度信息的交换和DeMo的集成需要重新考虑。在这里,我们提出了一种混合策略FlexDeMo,其中节点在同一GPU之间完全本地同步,并通过仅使用快速移动的部分来改进节点间通信。这一策略有效地结合了之前的混合分片策略和解耦动量的优点。我们的实验结果表明,FlexDeMo在验证损失方面与AdamW相当,展示了其可行性。