摘要
arXiv:2501.03035v2 宣告类型: replace-cross
摘要:大规模语言模型在复杂的数学推理基准测试,如 MATH,方面取得了显著进展。然而,它们巨大的计算需求为实际部署带来了挑战。模型量化已作为有效策略出现,通过使用较低精度和位宽表示来减少内存使用和计算成本。在本研究中,我们系统地评估了量化对数学推理任务的影响。结果显示,激进的量化方法如AWQ和GPTQ在Llama-3模型中引入了多达32.39%的准确度下降(平均11.31%),特别是在数值计算和推理规划方面。为了解决这一问题,我们提出了一个结合定性能力分析和定量误差评估的多维度评估框架。此外,我们还开发了针对性的恢复策略,显示在4个GPU上仅对545个任务特定示例进行3分钟的微调,可以有效恢复到接近全精度水平的推理能力。此外,我们的误差评估管道在3,366个失败案例中实现了98.9%的准确度,用于诊断和定位误差,提供了减轻量化引起的下降的可操作见解。