LLM2D

摘要

训练后量化（PTQ）是一种压缩大型语言模型（LLM）的有效技术。虽然许多研究集中在量化权重和激活，但激活量化后保持 LLM 准确性仍然是一个挑战。为了研究主要原因，我们将线性代数中的核概念扩展到量化函数，以定义一个新术语“量化核”，它指的是被量化为零的激活中的元素集。通过对量化核的定量分析，我们发现这些元素对于保持量化 LLM 的准确性至关重要。随着量化核的减少，量化 LLM 的精度提高。如果量化核比例保持在 OPT 模型的 19% 以下和 LLaMA 模型的 1% 以下，将激活量化为 INT8 所产生的精度损失将可以忽略不计。受开发具有小量化核的量化方法的目标驱动，我们提出了 CrossQuant：一种简单而有效的激活量化方法。CrossQuant 使用行和列方向的绝对最大向量对元素进行交叉量化，对于 OPT 模型实现约 16% 的量化核，对于 LLaMA 模型实现小于 0.1% 的量化核。对参数范围从 6.7B 到 70B 的 LLM（LLaMA、OPT）的实验结果表明，CrossQuant 提高或保持了语言建模、零样本和少样本任务中的困惑度和准确性。