LLM2D

摘要

arXiv:2502.09003v1 宣布类型: 交叉摘要: 监督微调是将预训练的大规模语言模型（LLMs）适应下游任务的标准方法。量化最近被研究作为部署LLM的有效后训练技术。为了获得量化微调的LLM，传统的流程是首先对预训练模型进行微调，然后进行后训练量化。这种方法通常会获得次优性能，因为这未能充分利用微调和量化之间的协同作用。为了有效地实现LLM中权重、激活和KV缓存的低比特量化，我们提出了一种名为旋转直通估计器（RoSTE）的算法，该算法结合了量化感知监督微调（QA-SFT）和自适应旋转策略，该策略可以识别有效的旋转配置以减少激活异常值。通过对过参数化的最小二乘量化训练问题应用RoSTE进行预测误差分析，我们为RoSTE提供了理论洞见。我们的发现表明，预测误差直接与收敛权重的量化误差成正比，可以通过优化旋转配置来有效地管理这种误差。Pythia和Llama等不同规模模型的实验表明了RoSTE的有效性。与现有的后SFT量化基线相比，我们的方法在各种任务和不同LLM架构中始终表现出更优的性能。