LLM2D
SubZero:用于内存高效 LLM 微调的随机子空间零阶优化
SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning
作者: Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Hua Huang
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08989v1

摘要

大型语言模型(LLMs)的微调已被证明对各种下游任务有效。然而,随着 LLMs 规模的增长,反向传播的内存需求变得越来越高。零阶(ZO)优化方法通过使用前向传递来估计梯度,提供了一种内存高效的替代方案,但梯度估计的方差通常与模型的参数维度成线性关系——这对 LLMs 来说是一个重大问题。在本文中,我们提出了随机子空间零阶(SubZero)优化来解决 LLMs 高维带来的挑战。我们引入了一种针对 LLMs 量身定制的低秩扰动,它可以显著减少内存消耗,同时提高训练性能。此外,我们证明了我们的梯度估计非常接近反向传播梯度,表现出比传统 ZO 方法更低的方差,并且在与 SGD 结合使用时可以确保收敛。实验结果表明,与 MeZO 等标准 ZO 方法相比,SubZero 在各种语言建模任务中提高了微调性能,并实现了更快的收敛速度。