LLM2D
旋转运行时平滑:用于精确 INT4 推理的免训练激活平滑器
Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference
作者: Ke Yi, Zengke Liu, Jianwei Zhang, Chengyuan Li, Tong Zhang, Junyang Lin, Jingren Zhou
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20361v1

摘要

大型语言模型在参数规模不断增大的情况下展现出令人瞩目的能力。然而,由于其规模庞大,为大型语言模型提供服务会产生大量的计算和内存移动成本。量化方法被用来降低服务成本和延迟。然而,激活值中的异常值阻碍了 INT4 权重-激活量化的发展。现有的方法将异常值和正常值分离到两个矩阵中,或者将异常值从激活值迁移到权重中,导致高延迟或精度下降。通过观察大型语言模型中的激活值,可以将异常值分类为通道级异常值和尖峰异常值。在本工作中,我们提出了旋转运行时平滑 (RRS),一种用于量化的即插即用激活平滑器,它由运行时平滑和旋转操作组成。运行时平滑 (RS) 通过在运行时使用通道级最大值平滑激活值来消除通道级异常值。旋转操作可以缩小尖峰异常值和正常值之间的差距,减轻通道级平滑造成的受害者影响。所提出的方法在 LLaMA 和 Qwen 家族中优于最先进的方法,并将 WikiText-2 的困惑度从 57.33 提高到 INT4 推理的 6.66。