LLM2D
量化遇上了推理:探索LLM低位量化退化对数学推理的影响
Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning
作者: Zhen Li, Yupeng Su, Runming Yang, Congkai Xie, Zheng Wang, Zhongwei Xie, Ngai Wong, Hongxia Yang
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2501.03035v3

摘要

arXiv:2501.03035v3 通告类型: replace-cross 摘要:大型语言模型在复杂的数学推理基准测试中(如MATH)取得了显著进展。然而,它们庞大的计算需求为实际部署带来了挑战。模型量化已成为一种有效的策略,通过使用较低精度和位宽表示来降低内存使用和计算成本。在本研究中,我们系统地评估了量化对数学推理任务的影响。结果显示,激进的量化方法如AWQ和GPTQ在Llama-3模型中引入了高达32.39%(平均11.31%)的准确性下降,特别是在数值计算和推理规划方面。为了解决这一问题,我们引入了一个结合定性能力分析和量化误差评估的多维评估框架。我们进一步开发了针对性的恢复策略,表明在4张GPU上对545个任务特定示例进行3分钟的微调,可以使推理能力恢复到接近全精度水平。此外,我们的错误评估管道在3,366个失败案例中实现了98.9%的准确性,诊断并定位了错误,为减轻量化引起的下降提供了可操作的见解。