LLM2D

摘要

我们观察到 LLaMA3/3.1-70B 模型中存在一种独特的量化相关行为，而在 LLaMA2-70B 和 LLaMA3/3.1/3.2-1B/3B/8B/405B 模型中则不存在这种行为。量化是高效部署大型语言模型 (LLM) 的一项重要技术。W8A8 训练后量化对模型精度的影响，尤其是在最近发布的 LLaMA3/3.1 模型系列中，仍然存在争议。本文探讨了三个关键问题：是什么使 LLaMA3-70B 模型系列对量化特别敏感？为什么会出现这种情况？如何解决这个问题？我们对开放式 LLM 排行榜上的多个 LLM 进行了实证研究，发现 LLaMA3-70B 模型系列在使用 W8A8 每通道训练后量化时，存在独特的精度下降行为。相比之下，其他模型系列，如 LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3 和 Falcon，在使用 W8A8 时表现出稳健的性能。与之前将精度下降归因于激活的大动态范围的说法相反，我们的研究结果表明，LLaMA3-70B 的权重分布是导致这种脆弱性的主要因素。通过仔细分析跨 Transformer 模块的权重分布的独特特征，我们提出了两种解决方案，它们在硬件/软件开销方面做出了不同的权衡。首先，我们提出了一种混合策略，其中不到 3% 的层采用更精细的每组 W8A8 量化粒度。其次，我们引入了一种双平滑策略，在权重和激活之间平衡量化误差，同时保持整个模型的每通道量化。实验结果表明，这两种策略都能有效地保留整个 LLaMA3-70B 模型系列在 W8A8 量化下的精度，达到与其 FP16 版本相当的性能。