LLM2D
带通道量化的 LLaMA3-70B 系列的独特性
The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization
作者: Minghai Qin
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2408.15301v2

摘要

我们观察到 LLaMA3/3.1-70B 模型中存在一种独特的量化相关行为,而在 LLaMA2-70B 和 LLaMA3/3.1/3.2-1B/3B/8B/405B 模型中则不存在这种行为。量化是高效部署大型语言模型 (LLM) 的一项重要技术。W8A8 训练后量化对模型精度的影响,尤其是在最近发布的 LLaMA3/3.1 模型系列中,仍然存在争议。本文探讨了三个关键问题:是什么使 LLaMA3-70B 模型系列对量化特别敏感?为什么会出现这种情况?如何解决这个问题?我们对开放式 LLM 排行榜上的多个 LLM 进行了实证研究,发现 LLaMA3-70B 模型系列在使用 W8A8 每通道训练后量化时,存在独特的精度下降行为。相比之下,其他模型系列,如 LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3 和 Falcon,在使用 W8A8 时表现出稳健的性能。与之前将精度下降归因于激活的大动态范围的说法相反,我们的研究结果表明,LLaMA3-70B 的权重分布是导致这种脆弱性的主要因素。通过仔细分析跨 Transformer 模块的权重分布的独特特征,我们提出了两种解决方案,它们在硬件/软件开销方面做出了不同的权衡。首先,我们提出了一种混合策略,其中不到 3% 的层采用更精细的每组 W8A8 量化粒度。其次,我们引入了一种双平滑策略,在权重和激活之间平衡量化误差,同时保持整个模型的每通道量化。实验结果表明,这两种策略都能有效地保留整个 LLaMA3-70B 模型系列在 W8A8 量化下的精度,达到与其 FP16 版本相当的性能。