LLM2D

摘要

arXiv:2501.03035v3 通告类型: replace-cross 摘要：大型语言模型在复杂的数学推理基准测试中（如MATH）取得了显著进展。然而，它们庞大的计算需求为实际部署带来了挑战。模型量化已成为一种有效的策略，通过使用较低精度和位宽表示来降低内存使用和计算成本。在本研究中，我们系统地评估了量化对数学推理任务的影响。结果显示，激进的量化方法如AWQ和GPTQ在Llama-3模型中引入了高达32.39%（平均11.31%）的准确性下降，特别是在数值计算和推理规划方面。为了解决这一问题，我们引入了一个结合定性能力分析和量化误差评估的多维评估框架。我们进一步开发了针对性的恢复策略，表明在4张GPU上对545个任务特定示例进行3分钟的微调，可以使推理能力恢复到接近全精度水平。此外，我们的错误评估管道在3,366个失败案例中实现了98.9%的准确性，诊断并定位了错误，为减轻量化引起的下降提供了可操作的见解。