摘要
arXiv:2502.13178v3 宣告类型: replace-cross
摘要:后训练量化(PTQ)技术由于其高效性和低资源需求,已被广泛应用于大语言模型(LLMs)的压缩。然而,当前研究缺乏对每种PTQ策略的优越和适用场景的深入分析。此外,现有算法主要集中在性能上,而忽视了模型大小、性能和量化位宽之间的权衡。为了缓解这些困惑,我们在本文中提供了一种针对LLMs PTQ的新基准。首先,为了支持我们的基准,我们通过仔细审查现有主流方法的计算策略(例如,基于优化的、基于补偿的等)提出了一个全面的分类法。然后,我们在每个类别中使用基准进行了广泛的实验,涵盖了各种规模(7B-70B)的模型、各种量化位宽、不同的训练级别(LLaMA1/2/3/3.1)、架构(Mixtral、DeepSeekMoE 和 Mamba)和模态(LLaVA1.5 和 VILA1.5)在广泛的评估指标上。通过对结果的比较分析,我们总结了每种PTQ策略的优势以及考虑性能的模型大小-量化位宽权衡。例如,我们的基准揭示了基于补偿的技术在跨架构上的出色鲁棒性,并且对于超大规模模型的极低位宽PTQ需要重新审视。最后,我们进一步声称,补偿与其他PTQ策略的实用组合可以实现各种鲁棒性的SOTA。我们认为,我们的基准将为LLMs的部署和未来PTQ方法的研究提供有价值的建议。我们在此 GitHub 仓库中发布了我们的基准:https://github.com/zjq0455/PTQ_Benchmark。