LLM2D

摘要

arXiv:2502.17055v2 优化器类型: 替换-交叉摘要：本文全面评估了几种最近提出的4位训练优化器，研究表明低位精确度会放大对学习率的敏感性，并且经常导致梯度范数不稳定，使得在较高的学习率下发生发散。在这之中，SPAM（一种具有动量重置和尖峰感知梯度裁剪特点的最近提出的优化器）在各种位数级别上都表现出最好的性能，但很难稳定梯度范数，需要仔细调整学习率。为了应对这些限制，我们提出了一种名为Stable-SPAM的方法，它结合了增强的梯度归一化和裁剪技术。具体来说，Stable-SPAM（1）通过跟踪尖峰梯度的历史最大值来适应性地更新裁剪阈值；（2）根据其历史$l_2$-范数统计数据归一化整个梯度矩阵；并且（3）继承了SPAM中的动量重置，定期重置Adam的第一和第二时刻，从而减轻尖峰梯度的积累。广泛的实验表明，Stable-SPAM在4位LLM训练中有效地稳定了梯度范数，与Adam和SPAM相比表现出更优的性能。值得注意的是，使用Stable-SPAM训练的4位LLaMA-1B模型比使用Adam训练的BF16 LLaMA-1B模型在困惑度上高出至多2个单位。此外，在4位训练时，Stable-SPAM能够在与Adam相同的损失下只需要大约一半的训练步骤。代码可在https://github.com/TianjinYellow/StableSPAM.git获取。