LLM2D

摘要

arXiv:2502.03304v1 分类: cross 摘要: 大型语言模型（LLMs）在各种任务中表现出色，但标准的一阶（FO）微调需要大量内存，显著限制了其实用部署。最近，零阶（ZO）优化作为一种内存高效的训练范式脱颖而出，避免了反向传播，并仅依赖于前向传播来估计梯度，使其在资源受限的场景中颇具吸引力。然而，ZO方法在收敛速度和准确性上远落后于FO方法。为了弥合这一差距，我们引入了一种新颖的逐层差异分析，揭示了FO和ZO优化不同的更新模式。基于这一发现，我们提出了\textbf{Di}vergence-driven \textbf{Z}eroth-\textbf{O}rder (\textbf{DiZO})优化。DiZO通过将投影整合到ZO更新中，进行逐层差异驱动的自适应，生成精确按层次个体优化需求缩放的多样化幅度的更新。我们的结果表明，DiZO在不牺牲吞吐量的情况下显著减少了收敛所需的迭代次数，在各种数据集上将训练GPU小时数减少了高达48%。此外，DiZO在调优RoBERTa-large、OPT系列和Llama系列模型的下游任务上始终优于代表性的ZO基准方法，并在某些情况下甚至超过了记忆需求较大的FO微调。