LLM2D
大型语言模型的通道 Wise 混合精度量化
Channel-Wise Mixed-Precision Quantization for Large Language Models
作者: Zihan Chen, Bike Xie, Jundong Li, Cong Shen
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.13056v3

摘要

arXiv:2410.13056v3 宣布类型: replace-cross 摘要:大规模语言模型(LLMs)在广泛的语言任务中展现了令人瞩目的成功,但由于其庞大多参数量带来的巨大内存需求,它们在边缘设备上的部署仍然具有挑战性。仅权重量化提供了一种减少LLMs内存占用的有前景的解决方案。然而,现有的方法主要集中在整数位量化上,限制了它们对分数位量化任务的适应性,并阻止了设备上可用存储空间的充分利用。在本文中,我们提出了一种新的混合精度量化方法——通道级混合精度量化(CMPQ),该方法根据激活分布以通道级模式分配量化精度。通过为不同的权重通道分配不同的精度级别,CMPQ可以适应任何位宽约束。CMPQ采用非均匀量化策略,并结合了两种异常值提取技术,共同保留关键信息,从而最小化量化损失。在不同大小的LLMs上的实验表明,CMPQ不仅在整数位量化任务中提升了性能,还在内存使用略有增加的情况下实现了显著的性能提升。因此,CMPQ代表了一种适应性强且有效的LLM量化方法,在各种设备能力下提供了巨大的优势。