LLM2D
RoSTE:一种高效的量化感知监督微调方法Large Language Models
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models
作者: Quan Wei (Katie), Chung-Yiu Yau (Katie), Hoi-To Wai (Katie), Yang (Katie), Zhao, Dongyeop Kang, Youngsuk Park, Mingyi Hong
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09003v1

摘要

arXiv:2502.09003v1 宣布类型: 交叉 摘要: 监督微调是将预训练的大规模语言模型(LLMs)适应下游任务的标准方法。量化最近被研究作为部署LLM的有效后训练技术。为了获得量化微调的LLM,传统的流程是首先对预训练模型进行微调,然后进行后训练量化。这种方法通常会获得次优性能,因为这未能充分利用微调和量化之间的协同作用。为了有效地实现LLM中权重、激活和KV缓存的低比特量化,我们提出了一种名为旋转直通估计器(RoSTE)的算法,该算法结合了量化感知监督微调(QA-SFT)和自适应旋转策略,该策略可以识别有效的旋转配置以减少激活异常值。通过对过参数化的最小二乘量化训练问题应用RoSTE进行预测误差分析,我们为RoSTE提供了理论洞见。我们的发现表明,预测误差直接与收敛权重的量化误差成正比,可以通过优化旋转配置来有效地管理这种误差。Pythia和Llama等不同规模模型的实验表明了RoSTE的有效性。与现有的后SFT量化基线相比,我们的方法在各种任务和不同LLM架构中始终表现出更优的性能。