摘要
训练后量化(PTQ)是一种压缩大型语言模型(LLM)的有效技术。虽然许多研究集中在量化权重和激活,但激活量化后保持 LLM 准确性仍然是一个挑战。为了研究主要原因,我们将线性代数中的核概念扩展到量化函数,以定义一个新术语“量化核”,它指的是被量化为零的激活中的元素集。通过对量化核的定量分析,我们发现这些元素对于保持量化 LLM 的准确性至关重要。随着量化核的减少,量化 LLM 的精度提高。如果量化核比例保持在 OPT 模型的 19% 以下和 LLaMA 模型的 1% 以下,将激活量化为 INT8 所产生的精度损失将可以忽略不计。受开发具有小量化核的量化方法的目标驱动,我们提出了 CrossQuant:一种简单而有效的激活量化方法。CrossQuant 使用行和列方向的绝对最大向量对元素进行交叉量化,对于 OPT 模型实现约 16% 的量化核,对于 LLaMA 模型实现小于 0.1% 的量化核。对参数范围从 6.7B 到 70B 的 LLM(LLaMA、OPT)的实验结果表明,CrossQuant 提高或保持了语言建模、零样本和少样本任务中的困惑度和准确性。