LLM2D

摘要

大型语言模型（LLMs）的微调已被证明对各种下游任务有效。然而，随着 LLMs 规模的增长，反向传播的内存需求变得越来越高。零阶（ZO）优化方法通过使用前向传递来估计梯度，提供了一种内存高效的替代方案，但梯度估计的方差通常与模型的参数维度成线性关系——这对 LLMs 来说是一个重大问题。在本文中，我们提出了随机子空间零阶（SubZero）优化来解决 LLMs 高维带来的挑战。我们引入了一种针对 LLMs 量身定制的低秩扰动，它可以显著减少内存消耗，同时提高训练性能。此外，我们证明了我们的梯度估计非常接近反向传播梯度，表现出比传统 ZO 方法更低的方差，并且在与 SGD 结合使用时可以确保收敛。实验结果表明，与 MeZO 等标准 ZO 方法相比，SubZero 在各种语言建模任务中提高了微调性能，并实现了更快的收敛速度。