LLM2D

摘要

arXiv:2502.09003v2 宣告类型: replace-cross 摘要：监督微调是将预训练的大语言模型（LLMs）适应下游任务的标准方法。量化 recently 已经作为后训练技术被研究，用于高效部署大语言模型。为了获得量化微调的大语言模型，传统的管道通常先进行预训练模型的微调，然后进行后训练量化。这种方法往往会导致次优性能，因为它未能充分利用微调和量化之间的协同作用。为了有效实现大语言模型中权重、激活和 KV 缓存的低精度量化，我们提出了一种名为 Rotated Straight-Through-Estimator（RoSTE）的算法，该算法结合了量化感知监督微调（QA-SFT）和一种自适应旋转策略，该策略能够识别出一种有效的旋转配置以减少激活异常值。我们通过分析 RoSTE 在过参数化最小二乘量化训练问题中的预测误差，提供了 RoSTE 的理论洞察。我们的发现表明，预测误差直接与收敛权重的量化误差成正比，而这种误差可以通过优化旋转配置来有效管理。在不同规模的 Pythia、Qwen 和 Llama 模型上进行的实验表明了 RoSTE 的有效性。与现有的后 SFT 量化基线方法相比，我们的方法在各种任务和不同的大语言模型架构上始终能够获得更好的性能。