摘要
arXiv:2502.06742v1 宣传类型: cross
摘要: 训练大型语言模型(LLMs)通常依赖于自适应优化器,如Adam(Kingma & Ba, 2015),它们存储额外的状态信息以加速收敛,但会产生显著的内存开销。最近的努力,如SWAN(Ma et al., 2024)通过消除优化器状态的需求,同时利用多步预处理程序应用到瞬时梯度上来实现与Adam相当的性能。受SWAN成功的启发,我们引入了一个新的无状态优化器框架,根据多种范数对随机梯度进行规范化。为此,我们提出了一种简单的交替方案来强制梯度根据这些范数进行规范化。我们证明,我们的过程可以在任意精度下产生问题的固定点,并且SWAN是我们方法的一个特例,具有精心选择的范数,为我们更深入地理解其设计提供了帮助。然而,SWAN昂贵的去相关/正交化步骤限制了它在大规模LLM中的实用性。借助我们原则性的视角,我们开发了一个更高效、可扩展且实用的无状态优化器。我们的算法放松了SWAN的属性,显著降低了其计算成本,同时保持了其内存效率,使其适用于训练大规模模型。在使用多达10亿参数预训练LLaMA模型的实验中,与Adam相比,我们的方法在显著减少内存需求的情况下实现了3倍的加速,超越了其他内存高效的基线方法。