摘要
arXiv:2409.11055v2 宣告类型: replace-cross
摘要:量化技术因其成为大规模和小型语言模型低成本部署的有前景解决方案而受到关注。然而,大部分先前的工作主要集中在困惑度或基本知识任务上,并且缺乏对最近的模型如Llama-3.3的全面评估。在本文中,我们对从1B到405B参数的指令调优模型进行了全面评估,并应用了四种量化方法跨13个数据集进行测试。我们的发现表明:(1)量化模型通常超过较小的FP16基线,但往往在指令遵循和幻觉检测方面遇到困难;(2)FP8在各种任务中始终是最可靠的选择,而在权重量化中AWQ往往优于GPTQ;(3)在4位量化下,小型模型可能会遭受严重的准确率下降,而70B规模的模型保持稳定的性能;(4)值得注意的是,并非所有难度大的任务都会经历最大的准确率损失,这表明量化放大了模型固有的弱点,而不仅仅是与任务难度相关;(5)基于LLM的评判者(MT-Bench)在编码和STEM任务中表现出显著的性能下降,尽管推理有时会有所改善。