LLM2D
将FP8训练扩展到万亿级令牌的大型语言模型
Scaling FP8 training to trillion-token LLMs
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12517v1

摘要

我们首次使用FP8精度在高达2万亿个标记的数据集上训练大型语言模型——这是之前限制的20倍增长。通过这些扩展的训练运行,我们发现了FP8训练中的关键不稳定性,这些不稳定性在早期较短时间的研究中是不可观察的。我们将这些不稳定性追溯到SwiGLU激活函数的异常放大。有趣的是,我们通过分析和实证表明,这种放大仅在长时间的训练期间发生,并将其与SwiGLU权重对齐过程联系起来。为了解决这一新发现的问题,我们引入了Smooth-SwiGLU,这是一种确保FP8训练稳定而不改变函数行为的新颖修改。我们还首次展示了Adam优化器时刻的FP8量化。结合这些创新,我们成功地在256个Intel Gaudi2加速器上使用FP8精度训练了一个7B参数的模型,实现了与BF16基线相当的结果,同时提供了高达约34%的吞吐量改进。