摘要
arXiv:2502.17055v2 优化器类型: 替换-交叉
摘要:本文全面评估了几种最近提出的4位训练优化器,研究表明低位精确度会放大对学习率的敏感性,并且经常导致梯度范数不稳定,使得在较高的学习率下发生发散。在这之中,SPAM(一种具有动量重置和尖峰感知梯度裁剪特点的最近提出的优化器)在各种位数级别上都表现出最好的性能,但很难稳定梯度范数,需要仔细调整学习率。为了应对这些限制,我们提出了一种名为Stable-SPAM的方法,它结合了增强的梯度归一化和裁剪技术。具体来说,Stable-SPAM(1)通过跟踪尖峰梯度的历史最大值来适应性地更新裁剪阈值;(2)根据其历史$l_2$-范数统计数据归一化整个梯度矩阵;并且(3)继承了SPAM中的动量重置,定期重置Adam的第一和第二时刻,从而减轻尖峰梯度的积累。广泛的实验表明,Stable-SPAM在4位LLM训练中有效地稳定了梯度范数,与Adam和SPAM相比表现出更优的性能。值得注意的是,使用Stable-SPAM训练的4位LLaMA-1B模型比使用Adam训练的BF16 LLaMA-1B模型在困惑度上高出至多2个单位。此外,在4位训练时,Stable-SPAM能够在与Adam相同的损失下只需要大约一半的训练步骤。代码可在https://github.com/TianjinYellow/StableSPAM.git获取。