LLM2D

摘要

我们首次使用FP8精度在高达2万亿个标记的数据集上训练大型语言模型——这是之前限制的20倍增长。通过这些扩展的训练运行，我们发现了FP8训练中的关键不稳定性，这些不稳定性在早期较短时间的研究中是不可观察的。我们将这些不稳定性追溯到SwiGLU激活函数的异常放大。有趣的是，我们通过分析和实证表明，这种放大仅在长时间的训练期间发生，并将其与SwiGLU权重对齐过程联系起来。为了解决这一新发现的问题，我们引入了Smooth-SwiGLU，这是一种确保FP8训练稳定而不改变函数行为的新颖修改。我们还首次展示了Adam优化器时刻的FP8量化。结合这些创新，我们成功地在256个Intel Gaudi2加速器上使用FP8精度训练了一个7B参数的模型，实现了与BF16基线相当的结果，同时提供了高达约34%的吞吐量改进。