摘要
arXiv:2504.09223v1 交叉通知类型
摘要:提高大型语言模型(LLMs)推理的效率是研究的关键领域。后训练量化(PTQ)是一种流行的技术,但在低位级水平下往往面临挑战,特别是在下游任务中。量化感知训练(QAT)能够缓解这一问题,但需要显着更多的计算资源。为了解决这个问题,我们引入了分解低秩量化感知训练(DL-QAT),该方法结合了QAT的优点,同时仅训练少于1%的总参数。具体而言,我们引入了一个组特定的量化幅度来调整每个量化组的总体规模。在每个量化组内,我们使用LoRA矩阵来更新量化空间中的权重大小和方向。我们在LLaMA和LLaMA2模型家族中验证了我们方法的有效性。结果表明,与基线方法相比,在不同的量化粒度下都取得了显著改进。例如,对于LLaMA-7B,我们的方法在3比特LLaMA-7B模型上实现了在MMLU上的4.2%的改进,超越了之前的最先进方法。此外,我们在预训练模型上的量化结果也超越了之前的QAT方法,展示了我们方法的优越性能和效率。