摘要
arXiv:2504.07389v1 交叉类型: cross
摘要: 训练后量化(PTQ)通过将全精度权重映射为低位权重来减少模型的内存占用,而无需昂贵的重新训练,但在2-到3位设置中可能会降低其下游性能。我们开发了一种新的混合精度PTQ方法,即任务电路量化(TaCQ),其灵感来源于自动电路发现,直接根据特定权重电路调整量化过程——我们定义为与下游任务性能相关的权重集合。这些权重保留为16位权重,而其他权重则被量化,从而在保持性能的同时仅增加轻微的内存成本。具体而言,TaCQ 将未量化模型的权重与均匀量化模型进行对比,以估计量化对权重预期变化,并利用梯度信息预测任务性能的结果影响,从而允许我们保留特定任务的权重。我们在通用数据和任务特定数据上比较了基于TaCQ的量化与现有混合精度量化方法。在Llama-3和Qwen2.5的QA、数学推理和文本到SQL任务中,我们发现当使用相同的校准数据和较低的权重预算时,TaCQ 的表现优于基准方法,尤其是在2位和3位的情况下取得了重大改进。使用仅有3.1位,我们能够恢复Llama-3-8B-Instruct未量化16位MMLU性能的96%,相对于SPQR获得5.25%的绝对性能提升。同时,我们在2位条件下观察到相对于现有方法的持续大幅改进,平均提升14.74%,超过最强基准SliM-LLM。此外,我们发现不依赖于特定任务时也观察到7.20%的提升,显示出TaCQ识别重要权重的能力并不局限于任务条件设置。