摘要
训练后量化 (PTQ) 技术应用于权重、激活和 KV 缓存,极大地减少了大型语言模型 (LLM) 的内存使用、延迟和功耗,但在存在异常值时可能会导致较大的量化误差。旋转激活或权重矩阵有助于消除异常值并有利于量化。在这项工作中,我们确定了一组适用的旋转参数化,这些参数化在全精度 Transformer 架构中产生相同的输出,同时提高了量化精度。此外,我们发现一些随机旋转比其他旋转具有更好的量化效果,在后续的零样本推理性能方面最多相差 13 个点。因此,我们提出了 SpinQuant,这是一种新方法,它结合了学习到的旋转矩阵,以实现最佳的量化网络精度。通过对权重、激活和 KV 缓存进行 4 位量化,SpinQuant 将 LLaMA-2 7B 模型在零样本推理任务上与全精度之间的精度差距缩小到仅 2.9 个点,超过了 LLM-QAT 19.1 个点和 SmoothQuant 25.0 个点。此外,SpinQuant 的性能也优于同时期的工作 QuaRot,后者对随机旋转进行应用以消除异常值。特别是对于难以量化的 LLaMA-3 8B 模型,SpinQuant 相对于 QuaRot 将与全精度之间的差距缩小了 45.1%。