LLM2D

摘要

大型语言模型（LLM）的微调在各种自然语言处理任务中取得了显著的性能提升，然而随着模型规模的不断增长，其内存需求也越来越高。为了解决这个问题，最近提出的内存高效零阶（MeZO）方法试图仅使用前向传播来微调LLM，从而避免了反向传播图的需求。然而，显著的性能下降和较高的发散风险限制了其广泛应用。在本文中，我们提出了自适应零阶张量列车自适应（AdaZeta）框架，专门用于提高ZO方法的性能和收敛性。为了提高维度相关的ZO估计精度，我们引入了一个快速前向、低参数的张量化适配器。为了解决大规模ZO微调任务中经常出现的发散问题，我们提出了一种自适应查询数量调度方案，以保证收敛性。在Roberta-Large和Llama-2-7B模型上的详细理论分析和大量实验结果证实了我们的AdaZeta框架在准确性、内存效率和收敛速度方面的有效性。