摘要
arXiv:2409.12517v2 宣告类型: replace-cross
摘要: 我们首次使用FP8精度训练大型语言模型,数据集包含多达2兆词——这比之前的工作中设定的上限提高了20倍。通过这些延长的训练运行,我们在FP8训练中发现了早期较短持续时间工作中不可见的关键不稳定性。我们将这些不稳定性追溯到SwiGLU激活函数的异常值放大。有趣的是,我们通过分析和实验证明,这种放大只发生在长期训练期间,并将其与SwiGLU权重对齐过程联系起来。为了解决这个新发现的问题,我们引入了Smooth-SwiGLU,这是一种创新修改,确保了在不改变函数行为的情况下实现稳定的FP8训练。我们还首次展示了Adam优化器动量的FP8量化。结合这些创新,我们成功使用FP8精度在256个Intel Gaudi2加速器上训练了一个7B参数模型,实现了与BF16基线相当的结果,同时提供了高达约34%的吞吐量改进。提供的参考实现可在https://github.com/Anonymous1252022/Megatron-DeepSpeed找到。