LLM2D

摘要

arXiv:2502.06728v1 公开发表类型: cross 摘要: 训练大型神经网络模型需要广泛的计算资源，通常分布在多个节点和加速器上。最近的研究表明，可能只需要交换梯度的快速移动部分，同时在本地累积动量（解耦动量，或DeMo）。然而，当考虑更大的模型无法加载到单个加速器上时，梯度信息的交换和DeMo的集成需要重新考虑。在这里，我们提出了一种混合策略FlexDeMo，其中节点在同一GPU之间完全本地同步，并通过仅使用快速移动的部分来改进节点间通信。这一策略有效地结合了之前的混合分片策略和解耦动量的优点。我们的实验结果表明，FlexDeMo在验证损失方面与AdamW相当，展示了其可行性。