LLM2D
在LLM中基准测试后训练量化:全面分类、统一评估和比较分析
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis
作者: Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2502.13178v2

摘要

arXiv:2502.13178v2 宣告类型: replace-cross 摘要: 后训练量化(PTQ)技术由于其高效性和低资源需求,已被广泛应用于大型语言模型(LLMs)的压缩。然而,当前研究缺少对每种PTQ策略的优越且适用场景的深入分析。此外,现有的算法主要关注性能,而忽视了模型大小、性能和量化位宽之间的权衡。为了缓解这些困惑,我们在本文中提供了一个新的LLMs PTQ基准。首先,为了支持我们的基准,我们通过仔细审视现有主流方法的计算策略(例如,基于优化的、基于补偿的等),提出了一种全面的分类体系。然后,我们在每个类别中使用基准进行全面实验,覆盖不同大小(7B-70B)、位宽、训练级别(LLaMA1/2/3/3.1)、架构(Mixtral、DeepSeekMoE 和 Mamba)和模态(LLaVA1.5 和 VILA1.5)的模型,涵盖了多种评估指标。通过对比分析结果,我们总结了每种PTQ策略的优点和模型大小-位宽权衡,考虑到性能。例如,我们的基准揭示了基于补偿的技术在跨架构鲁棒性方面的突出表现,并且对于超大规模模型的极低位宽PTQ需要重新评估。最后,我们进一步主张,补偿和其他PTQ策略的结合可以实现最优的鲁棒性。我们认为,我们的基准将为LLMs的部署和未来PTQ方法的研究提供有价值的建议。我们将在https://github.com/zjq0455/PTQ_Benchmark 中创建一个存储库来存储我们的基准。