LLM2D
AdaZeta:一种用于内存高效的大型语言模型微调的自适应零阶张量列车适配方法
AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning
作者: Yifan Yang, Kai Zhen, Ershad Banijamal, Athanasios Mouchtaris, Zheng Zhang
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2406.18060v2

摘要

大型语言模型(LLM)的微调在各种自然语言处理任务中取得了显著的性能提升,然而随着模型规模的不断增长,其内存需求也越来越高。为了解决这个问题,最近提出的内存高效零阶(MeZO)方法试图仅使用前向传播来微调LLM,从而避免了反向传播图的需求。然而,显著的性能下降和较高的发散风险限制了其广泛应用。在本文中,我们提出了自适应零阶张量列车自适应(AdaZeta)框架,专门用于提高ZO方法的性能和收敛性。为了提高维度相关的ZO估计精度,我们引入了一个快速前向、低参数的张量化适配器。为了解决大规模ZO微调任务中经常出现的发散问题,我们提出了一种自适应查询数量调度方案,以保证收敛性。在Roberta-Large和Llama-2-7B模型上的详细理论分析和大量实验结果证实了我们的AdaZeta框架在准确性、内存效率和收敛速度方面的有效性。