摘要
arXiv:2405.16406v4 通知类型: replace-cross
摘要:应用于权重、激活值和KV缓存的后训练量化(PTQ)技术极大地减少了大型语言模型(LLMs)的内存使用、延迟和能耗,但在存在离群值时可能会导致大规模量化误差。旋转激活或权重矩阵有助于去除离群值并提高量化效果。在此项工作中,我们识别出一组适用于全精度Transformer架构的旋转参数化方案,这些方案在保持全精度输出的同时增强了量化精度。此外,我们发现一些随机旋转比其他旋转带来的量化效果要好得多,下游零样本推理性能差异可达13个点。因此,我们提出了SpinQuant,这是一种结合了学习到的旋转矩阵的新方法,以实现最优量化网络精度。通过4位量化权重、激活值和KV缓存,SpinQuant在LLaMA-2 7B模型上的零样本推理任务准确性差距仅缩小至2.9个点,超越了LLM-QAT 19.1个点和SmoothQuant 25.0个点。此外,SpinQuant还超越了同期工作QuaRot,后者应用随机旋转去除离群值。特别是在LLaMA-3 8B模型这种难以量化的模型上,SpinQuant相对于QuaRot将差距相对缩小了45.1%。代码可在https://github.com/facebookresearch/SpinQuant获取。