LLM2D
QuZO: 量化零阶微调用于大型语言模型
QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models
作者: Jiajun Zhou, Yifan Yang, Kai Zhen, Ziyue Liu, Yequan Zhao, Ershad Banijamali, Athanasios Mouchtaris, Ngai Wong, Zheng Zhang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12346v1

摘要

arXiv:2502.12346v1 宣布类型: cross 摘要: 语言模型(LLMs)通常被量化为较低的精度,以降低推理时的内存成本和延迟。然而,量化往往会导致模型性能下降,因此需要对各种下游任务进行微调。传统的微调方法,如随机梯度下降和Adam优化,需要反向传播,这在低精度设置中容易出错。为了解决这些限制,我们提出了Quantized Zeroth-Order(QuZO)框架,专门用于通过低精度(例如4位或8位)前向传递来微调LLMs。我们的方法可以避开低精度下的易出错的直通过滤器估计,并利用优化的随机舍入来减轻增加的偏差。QuZO简化了训练过程,同时在${\rm FP}8$中达到与一阶方法可对比的结果,在${\rm INT}8$和${\rm INT}4$训练中则表现出更高的准确性。实验结果表明,低比特训练的QuZO在GLUE、多选择和生成任务上达到了与MeZO优化方法可比的性能,在对LLaMA2-7B的微调中,与量化的一阶方法相比,内存成本降低了$2.94 \times$。