LLM2D
补偿量化误差+: 量化模型是好奇的学习者
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners
作者: Yifei Gao, Jie Ou, Lei Wang, Jun Cheng, Mengchu Zhou
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2407.15508v3

摘要

arXiv:2407.15508v3 宣告类型: replace-cross 摘要:大型语言模型(LLMs)的量化一直是研究的一个重要领域,旨在使其在实践中的轻量级部署成为可能。现有的关于LLM量化的研究主要探讨了权重和激活之间的相互作用,或者引入了辅助组件,而忽视了量化过程中调整权重的必要性。因此,原始权重分布经常在进行四舍五入(RTN)量化后无法达到预期的结果。虽然在LLM的量化中引入混合精度和低秩误差近似等技术可以取得改进的结果,但这些方法不可避免地增加了额外的计算开销。另一方面,对于权重量化的传统技术,如生成性后训练量化(Generative Post-Training Quantization),依赖于手动调整权重分布以最小化局部错误,但它们无法实现全局最优结果。虽然最近提出的可学习奇异值增量通过修改权重分布改善了全局权重量化,但它显著扰乱了原始权重分布。这导致了对训练数据的偏见,并可能降低下游任务的性能。本文介绍了一种更多样化的权重分布改进方法,称为奇异值对角扩展(Singular-value Diagonal Expansion),以实现更好的量化对齐。此外,我们引入了跨层学习(Cross-layer Learning),通过更均匀地分配错误到各层来提高整体量化效果。我们的即插即用权重量化方法在状态最前沿的方法,包括OmniQuant、DuQuant和PrefixQuant上表现出显著的性能改进。