摘要
大型语言模型(LLM)的微调在各种自然语言处理任务中取得了显著的性能提升,然而随着模型规模的不断增长,其内存需求也越来越高。为了解决这个问题,最近提出的内存高效零阶(MeZO)方法试图仅使用前向传播来微调LLM,从而避免了反向传播图的需求。然而,显著的性能下降和较高的发散风险限制了其广泛应用。在本文中,我们提出了自适应零阶张量列车自适应(AdaZeta)框架,专门用于提高ZO方法的性能和收敛性。为了提高维度相关的ZO估计精度,我们引入了一个快速前向、低参数的张量化适配器。为了解决大规模ZO微调任务中经常出现的发散问题,我们提出了一种自适应查询数量调度方案,以保证收敛性。在Roberta-Large和Llama-2-7B模型上的详细理论分析和大量实验结果证实了我们的AdaZeta框架在准确性、内存效率和收敛速度方面的有效性。