LLM2D

摘要

训练后量化 (PTQ) 技术应用于权重、激活和 KV 缓存，极大地减少了大型语言模型 (LLM) 的内存使用、延迟和功耗，但在存在异常值时可能会导致较大的量化误差。旋转激活或权重矩阵有助于消除异常值并有利于量化。在这项工作中，我们确定了一组适用的旋转参数化，这些参数化在全精度 Transformer 架构中产生相同的输出，同时提高了量化精度。此外，我们发现一些随机旋转比其他旋转具有更好的量化效果，在后续的零样本推理性能方面最多相差 13 个点。因此，我们提出了 SpinQuant，这是一种新方法，它结合了学习到的旋转矩阵，以实现最佳的量化网络精度。通过对权重、激活和 KV 缓存进行 4 位量化，SpinQuant 将 LLaMA-2 7B 模型在零样本推理任务上与全精度之间的精度差距缩小到仅 2.9 个点，超过了 LLM-QAT 19.1 个点和 SmoothQuant 25.0 个点。此外，SpinQuant 的性能也优于同时期的工作 QuaRot，后者对随机旋转进行应用以消除异常值。特别是对于难以量化的 LLaMA-3 8B 模型，SpinQuant 相对于 QuaRot 将与全精度之间的差距缩小了 45.1%。