LLM2D

摘要

arXiv:2504.04823v1分类：交叉摘要：最近的推理语言模型在复杂任务中表现出色，但其扩展的链式思考推理过程增加了推理开销。虽然量化已被广泛采用以降低大型语言模型的推理成本，但其对推理模型的影响仍研究不足。在这项研究中，我们首次对量化推理模型进行了系统的研究，评估了从150亿到700亿参数的开源DeepSeek-R1-Distilled Qwen和LLaMA家族模型，以及QwQ-32B模型。我们的研究涵盖了使用最新算法在不同位宽下的权重、KV缓存和激活量化，广泛评估了数学（AIME, MATH-500）、科学（GPQA）和编程（LiveCodeBench）推理基准。我们的研究结果表明，虽然可以使用W8A8或W4A16量化实现无损量化，但较低的位宽会带来显著的准确率风险。我们进一步发现，模型大小、模型来源和任务难度是影响性能的关键因素。与预期相反，量化模型并不表现出输出长度增加的情况。此外，战略性地扩展模型大小或推理步骤可以有效提升性能。所有量化推理模型及其代码将开源在https://github.com/ruikangliu/Quantized-Reasoning-Models。