LLM2D

摘要

arXiv:2504.09223v1 交叉通知类型摘要：提高大型语言模型（LLMs）推理的效率是研究的关键领域。后训练量化（PTQ）是一种流行的技术，但在低位级水平下往往面临挑战，特别是在下游任务中。量化感知训练（QAT）能够缓解这一问题，但需要显着更多的计算资源。为了解决这个问题，我们引入了分解低秩量化感知训练（DL-QAT），该方法结合了QAT的优点，同时仅训练少于1%的总参数。具体而言，我们引入了一个组特定的量化幅度来调整每个量化组的总体规模。在每个量化组内，我们使用LoRA矩阵来更新量化空间中的权重大小和方向。我们在LLaMA和LLaMA2模型家族中验证了我们方法的有效性。结果表明，与基线方法相比，在不同的量化粒度下都取得了显著改进。例如，对于LLaMA-7B，我们的方法在3比特LLaMA-7B模型上实现了在MMLU上的4.2%的改进，超越了之前的最先进方法。此外，我们在预训练模型上的量化结果也超越了之前的QAT方法，展示了我们方法的优越性能和效率。