LLM2D
探索权衡:从边缘到巨人的大型语言模型中量化方法、任务难度与模型大小之间的trade-offs
Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant
作者: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2409.11055v4

摘要

arXiv:2409.11055v4 映射类型: 替换-交叉 摘要:量化已引起广泛关注,作为大规模和小型语言模型经济有效的部署解决方案。然而,大多数先前的工作仅限于困惑度或基本知识任务,并缺乏对近期模型如Llama-3.3的全面评估。在这篇论文中,我们对参数量从1B到405B的指令调整模型进行了全面评估,应用了四种量化方法来跨越13个数据集。我们的发现显示:(1) 量化模型通常超过较小的FP16基线,但在指令跟随和幻觉检测方面经常遇到困难;(2) FP8在各任务中始终是最为稳健的选择,并且AWQ在仅权重量化中往往优于GPTQ;(3) 小型模型在4位量化时可能会遭受严重的准确度下降,而70B规模的模型则能保持稳定性能;(4) 显著的是,困难任务并不总是遭受最大的准确度损失,这表明量化放大了模型固有的弱点,而不仅仅是与任务难度相关;(5) 一个基于大语言模型的裁判机构(MT-Bench)在编程和STEM任务中显示出显著的性能下降,尽管偶尔会在推理方面报告改进。