LLM2D
Pack-PTQ:通过包-wise 重建推进神经网络的后训练量化
Pack-PTQ: Advancing Post-training Quantization of Neural Networks by Pack-wise Reconstruction
作者: Changjun Li, Runqing Jiang, Zhuo Song, Pengpeng Yu, Ye Zhang, Yulan Guo
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00259v1

摘要

arXiv:2505.00259v1 量化类型: 横向 摘要:后训练量化(PTQ)已成为压缩复杂模型的一种突出解决方案,它倡导使用小型校准数据集,并避免全链路重新训练。然而,现有的大多数PTQ方法采用块级重建,忽视了跨块依赖性,并在低位宽情况下表现出明显的精度下降。为解决这些问题,本文提出了一种名为Pack-PTQ的新型PTQ方法。首先,我们设计了一种Hessian引导的自适应打包机制,将块划分为非重叠的打包单位,作为重建的基本单元,从而保留了跨块依赖性,并能够准确估计量化参数。其次,基于打包配置,我们提出了一种混合精度量化方法,根据不同包的敏感性分配不同的位宽,从而进一步提高性能。使用各种网络架构在2D图像和3D点云分类任务上的广泛实验表明,我们的方法在与最先进的PTQ方法相比时具有优越性。