LLM2D

摘要

arXiv:2405.16406v4 通知类型: replace-cross 摘要:应用于权重、激活值和KV缓存的后训练量化(PTQ)技术极大地减少了大型语言模型(LLMs)的内存使用、延迟和能耗，但在存在离群值时可能会导致大规模量化误差。旋转激活或权重矩阵有助于去除离群值并提高量化效果。在此项工作中，我们识别出一组适用于全精度Transformer架构的旋转参数化方案，这些方案在保持全精度输出的同时增强了量化精度。此外，我们发现一些随机旋转比其他旋转带来的量化效果要好得多，下游零样本推理性能差异可达13个点。因此，我们提出了SpinQuant，这是一种结合了学习到的旋转矩阵的新方法，以实现最优量化网络精度。通过4位量化权重、激活值和KV缓存，SpinQuant在LLaMA-2 7B模型上的零样本推理任务准确性差距仅缩小至2.9个点，超越了LLM-QAT 19.1个点和SmoothQuant 25.0个点。此外，SpinQuant还超越了同期工作QuaRot，后者应用随机旋转去除离群值。特别是在LLaMA-3 8B模型这种难以量化的模型上，SpinQuant相对于QuaRot将差距相对缩小了45.1%。代码可在https://github.com/facebookresearch/SpinQuant获取。