LLM2D
稳定版本的SPAM:如何比16位Adam更稳定地训练4位表示模型
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam
作者: Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2502.17055v2

摘要

arXiv:2502.17055v2 优化器类型: 替换-交叉 摘要:本文全面评估了几种最近提出的4位训练优化器,研究表明低位精确度会放大对学习率的敏感性,并且经常导致梯度范数不稳定,使得在较高的学习率下发生发散。在这之中,SPAM(一种具有动量重置和尖峰感知梯度裁剪特点的最近提出的优化器)在各种位数级别上都表现出最好的性能,但很难稳定梯度范数,需要仔细调整学习率。为了应对这些限制,我们提出了一种名为Stable-SPAM的方法,它结合了增强的梯度归一化和裁剪技术。具体来说,Stable-SPAM(1)通过跟踪尖峰梯度的历史最大值来适应性地更新裁剪阈值;(2)根据其历史$l_2$-范数统计数据归一化整个梯度矩阵;并且(3)继承了SPAM中的动量重置,定期重置Adam的第一和第二时刻,从而减轻尖峰梯度的积累。广泛的实验表明,Stable-SPAM在4位LLM训练中有效地稳定了梯度范数,与Adam和SPAM相比表现出更优的性能。值得注意的是,使用Stable-SPAM训练的4位LLaMA-1B模型比使用Adam训练的BF16 LLaMA-1B模型在困惑度上高出至多2个单位。此外,在4位训练时,Stable-SPAM能够在与Adam相同的损失下只需要大约一半的训练步骤。代码可在https://github.com/TianjinYellow/StableSPAM.git获取。