摘要
arXiv:2405.18710v2 宣告类型: replace-cross
摘要:与大规模语言模型(LLM)预训练相关的巨大计算成本激发了对减少精度的浮点表示的兴趣,以加速这一过程。因此,BrainFloat16(BF16)精度已成为LLM训练的事实标准,最近一代加速器中都包括了硬件支持。这一趋势在最新处理器中进一步发展,最近引入了FP8精度。然而,先前FP16的经验表明,其稳定性不如BF16,这引发了关于即使位数比FP16更少的FP8是否可以作为LLM训练的经济替代品的担忧。我们认为,减少精度的训练方案必须与高精度的对应方案具有类似的训练稳定性和超参数敏感性,才能具备经济性。然而,我们发现目前可用的FP8训练方法不够稳健,无法作为经济替代品使用。这促使我们研究减少精度的LLM训练的稳定性,涉及随机种子、学习率和数据集的稳健性。为此,我们提出了一种新的评估技术,并提出了一种新的度量标准来量化自回归语言模型中的损失景观锐度。通过模拟浮点表示中的逐步位数减少,我们分析了表示能力和训练稳定性之间的关系,旨在为该领域的未来研究提供帮助。