LLM2D

摘要

arXiv:2504.07389v1 交叉类型: cross 摘要: 训练后量化(PTQ)通过将全精度权重映射为低位权重来减少模型的内存占用，而无需昂贵的重新训练，但在2-到3位设置中可能会降低其下游性能。我们开发了一种新的混合精度PTQ方法，即任务电路量化(TaCQ)，其灵感来源于自动电路发现，直接根据特定权重电路调整量化过程——我们定义为与下游任务性能相关的权重集合。这些权重保留为16位权重，而其他权重则被量化，从而在保持性能的同时仅增加轻微的内存成本。具体而言，TaCQ 将未量化模型的权重与均匀量化模型进行对比，以估计量化对权重预期变化，并利用梯度信息预测任务性能的结果影响，从而允许我们保留特定任务的权重。我们在通用数据和任务特定数据上比较了基于TaCQ的量化与现有混合精度量化方法。在Llama-3和Qwen2.5的QA、数学推理和文本到SQL任务中，我们发现当使用相同的校准数据和较低的权重预算时，TaCQ 的表现优于基准方法，尤其是在2位和3位的情况下取得了重大改进。使用仅有3.1位，我们能够恢复Llama-3-8B-Instruct未量化16位MMLU性能的96%，相对于SPQR获得5.25%的绝对性能提升。同时，我们在2位条件下观察到相对于现有方法的持续大幅改进，平均提升14.74%，超过最强基准SliM-LLM。此外，我们发现不依赖于特定任务时也观察到7.20%的提升，显示出TaCQ识别重要权重的能力并不局限于任务条件设置。