摘要
arXiv:2503.19050v1 并行类型: 交叉
摘要: 为了加速大型语言模型的分布式训练,已经提出了各种并行性,如数据并行、张量并行和管道并行,以及如激活检查点、冗余消除和卸载等内存优化技术。为了找到这些技术的最佳组合,提出了自动分布式训练系统。然而,现有的系统只调整了一部分优化,这是因为缺乏对重叠的意识、无法导航庞大的搜索空间以及忽略微批间不平衡导致的,从而导致了次优性能。为了解决这些不足,我们提出了Mist,这是一种具有记忆、重叠和不平衡意识的自动分布式训练系统,它全面协同优化所有内存占用减少技术以及并行性。Mist 基于三个关键思想:(1)细粒度的重叠为中心调度,以重叠方式协调优化;(2)基于符号的性能分析,利用符号表达式预测运行时间和内存使用情况,以便快速调整;(3)不平衡意识的层次调整,将过程分为区间阶段的不平衡和重叠意识混合整数线性规划问题和区内阶段的约束双目标优化问题,并通过帕累托前沿采样将它们连接起来。我们的评估结果表明,与最先进的手动系统Megatron-LM相比,Mist 的平均加速比为1.28倍(最多1.73倍),与最先进的自动系统Aceso相比,Mist 的平均加速比为1.27倍(最多2.04倍)。