摘要
arXiv:2409.11055v3 宣布类型: replace-cross
摘要: 量化已经引起了人们对其作为成本有效部署大模型和小模型的潜在解决方案的注意。然而,大多数先前工作仅限于困惑度或基本知识任务的评估,缺乏对最近的模型如Llama-3.3的全面评估。在本文中,我们对参数量从10亿到4050亿的指令调整模型进行了全面评估,并在13个数据集上应用了四种量化方法。我们的发现表明:(1) 量化模型通常超越较小的FP16基线,但在指令遵循和幻觉检测方面往往表现出色;(2) FP8在各种任务中始终是最为稳健的选择,而AWQ在权重仅量化中通常优于GPTQ;(3) 在4位量化中,小型模型可能会遭受严重的准确度下降,而700亿规模的模型则保持稳定的性能;(4) 显著的是,**困难**任务并不总是遭受最大的准确度损失,表明量化放大了模型固有的弱点,而不仅仅是与任务难度相关;(5) 基于LLM的评判者(MT-Bench)在编码和STEM任务中显示出显著的性能下降,尽管推理有时会有所提升。