LLM2D
在LLM中基准测试后训练量化:全面分类、统一评估和比较分析
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis
作者: Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13178v1

摘要

arXiv:2502.13178v1 交叉类型公告 摘要:后训练量化(PTQ)技术由于其高效性和低资源需求,已经被广泛应用于大型语言模型(LLL)的压缩。然而,现有研究缺乏对每种PTQ策略的优越性和适用场景的深入分析。此外,现有的算法主要关注性能,而忽略了模型大小、性能和量化位宽之间的权衡。为了解决这些困惑,我们在本文中提供了一种新的LLMs PTQ基准。首先,为了支持我们的基准,我们通过仔细审查现有主流方法的计算策略(例如,基于优化的方法、补偿基的方法等),提出了一种全面的分类法。然后,我们在每个类别中使用基线进行广泛的实验,涵盖了各种规模的模型(7B-70B)、位宽、训练级别(LLaMA1/2/3/3.1)、架构(Mixtral、DeepSeekMoE、Mamba)和模态(LLaVA1.5和VILA1.5),以及广泛的评估指标。通过对实验结果的对比分析,我们总结了每种PTQ策略的优势及模型大小与量化位宽之间的权衡考虑性能情况。例如,我们的基准表明,基于补偿的技术在跨架构鲁棒性方面表现出色,并且对于超大规模模型的极低位宽量化应重新审视。最后,我们进一步提出,一个实用的补偿和其他PTQ策略的组合可以实现最先进的鲁棒性。我们相信,我们的基准将为LLMs的部署和未来PTQ方法的研究提供有价值的建议。