LLM2D

摘要

微调大型语言模型 (LLM) 已被证明可有效用于各种下游任务。然而，随着LLM规模的增长，反向传播的内存需求也变得越来越高昂。零阶 (ZO) 优化方法通过使用前向传播来估计梯度，提供了一种内存高效的替代方案，但梯度估计的方差通常与模型的参数维度线性相关——这对LLM来说是一个重大问题。本文提出了随机子空间零阶 (SubZero) 优化方法来解决LLM高维性带来的挑战。我们引入了一种针对LLM的低秩扰动，它显著降低了内存消耗，同时提高了训练性能。此外，我们证明了我们的梯度估计与反向传播梯度非常接近，方差比传统的ZO方法更低，并且与SGD结合使用时能够保证收敛。实验结果表明，与MeZO等标准ZO方法相比，SubZero提高了微调性能，并实现了更快的收敛速度，涵盖了各种语言建模任务。