摘要
微调大型语言模型 (LLM) 已被证明可有效用于各种下游任务。然而,随着LLM规模的增长,反向传播的内存需求也变得越来越高昂。零阶 (ZO) 优化方法通过使用前向传播来估计梯度,提供了一种内存高效的替代方案,但梯度估计的方差通常与模型的参数维度线性相关——这对LLM来说是一个重大问题。本文提出了随机子空间零阶 (SubZero) 优化方法来解决LLM高维性带来的挑战。我们引入了一种针对LLM的低秩扰动,它显著降低了内存消耗,同时提高了训练性能。此外,我们证明了我们的梯度估计与反向传播梯度非常接近,方差比传统的ZO方法更低,并且与SGD结合使用时能够保证收敛。实验结果表明,与MeZO等标准ZO方法相比,SubZero提高了微调性能,并实现了更快的收敛速度,涵盖了各种语言建模任务。