LLM2D
量化伤害推理?关于量化推理模型的一项实证研究
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models
作者: Ruikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04823v1

摘要

arXiv:2504.04823v1分类:交叉 摘要:最近的推理语言模型在复杂任务中表现出色,但其扩展的链式思考推理过程增加了推理开销。虽然量化已被广泛采用以降低大型语言模型的推理成本,但其对推理模型的影响仍研究不足。在这项研究中,我们首次对量化推理模型进行了系统的研究,评估了从150亿到700亿参数的开源DeepSeek-R1-Distilled Qwen和LLaMA家族模型,以及QwQ-32B模型。我们的研究涵盖了使用最新算法在不同位宽下的权重、KV缓存和激活量化,广泛评估了数学(AIME, MATH-500)、科学(GPQA)和编程(LiveCodeBench)推理基准。我们的研究结果表明,虽然可以使用W8A8或W4A16量化实现无损量化,但较低的位宽会带来显著的准确率风险。我们进一步发现,模型大小、模型来源和任务难度是影响性能的关键因素。与预期相反,量化模型并不表现出输出长度增加的情况。此外,战略性地扩展模型大小或推理步骤可以有效提升性能。所有量化推理模型及其代码将开源在https://github.com/ruikangliu/Quantized-Reasoning-Models。