LLM2D

摘要

arXiv:2409.11055v4 映射类型: 替换-交叉摘要：量化已引起广泛关注，作为大规模和小型语言模型经济有效的部署解决方案。然而，大多数先前的工作仅限于困惑度或基本知识任务，并缺乏对近期模型如Llama-3.3的全面评估。在这篇论文中，我们对参数量从1B到405B的指令调整模型进行了全面评估，应用了四种量化方法来跨越13个数据集。我们的发现显示：(1) 量化模型通常超过较小的FP16基线，但在指令跟随和幻觉检测方面经常遇到困难；(2) FP8在各任务中始终是最为稳健的选择，并且AWQ在仅权重量化中往往优于GPTQ；(3) 小型模型在4位量化时可能会遭受严重的准确度下降，而70B规模的模型则能保持稳定性能；(4) 显著的是，困难任务并不总是遭受最大的准确度损失，这表明量化放大了模型固有的弱点，而不仅仅是与任务难度相关；(5) 一个基于大语言模型的裁判机构（MT-Bench）在编程和STEM任务中显示出显著的性能下降，尽管偶尔会在推理方面报告改进。