LLM2D

摘要

arXiv:2312.00839v3 消息类型: 替换交叉摘要：异步流水线模型并行ism以"1F1B"（一次前向，一次后向）调度生成少量的气泡开销，并且总是提供相当高的吞吐量。然而，"1F1B"调度不可避免地会导致不同GPU之间跨批次的权重不一致性以及权重 staleness 问题。为同时解决这两个问题，本文提出了一种依赖优化器的权重预测策略（即 PipeOptim）。我们提案的关键洞察是，在前向传递过程中采用权重预测策略，以确保每个批次使用一致且不 staleness 的权重来进行前向传递。具体而言，我们首先根据用于训练深度神经网络模型的优化器的更新规则构造权重预测方案。然后，在"1F1B"流水线训练过程中，每个批次必须在前向传递之前执行权重预测，并利用预测的权重进行前向传递。因此，PipeOptim 1）继承了"1F1B"调度的优势，生成相当高的吞吐量，2）无论所使用的优化器类型如何，都能确保有效的参数学习。为了验证我们提案的有效性，我们在包括图像分类、情感分析和机器翻译在内的三个机器学习任务中，使用八种不同的深度学习模型进行了广泛实验评估。实验结果显示，PipeOptim 在与流行流水线方法 GPipe、PipeDream、PipeDream-2BW 和 SpecTrain 的比较中均优于这些方法。PipeOptim 的代码可在 https://github.com/guanleics/PipeOptim 获取。