LLM2D

摘要

arXiv:2409.12517v2 宣告类型: replace-cross 摘要: 我们首次使用FP8精度训练大型语言模型，数据集包含多达2兆词——这比之前的工作中设定的上限提高了20倍。通过这些延长的训练运行，我们在FP8训练中发现了早期较短持续时间工作中不可见的关键不稳定性。我们将这些不稳定性追溯到SwiGLU激活函数的异常值放大。有趣的是，我们通过分析和实验证明，这种放大只发生在长期训练期间，并将其与SwiGLU权重对齐过程联系起来。为了解决这个新发现的问题，我们引入了Smooth-SwiGLU，这是一种创新修改，确保了在不改变函数行为的情况下实现稳定的FP8训练。我们还首次展示了Adam优化器动量的FP8量化。结合这些创新，我们成功使用FP8精度在256个Intel Gaudi2加速器上训练了一个7B参数模型，实现了与BF16基线相当的结果，同时提供了高达约34%的吞吐量改进。提供的参考实现可在https://github.com/Anonymous1252022/Megatron-DeepSpeed找到。