摘要
大型语言模型在参数规模不断增大的情况下展现出令人瞩目的能力。然而,由于其规模庞大,为大型语言模型提供服务会产生大量的计算和内存移动成本。量化方法被用来降低服务成本和延迟。然而,激活值中的异常值阻碍了 INT4 权重-激活量化的发展。现有的方法将异常值和正常值分离到两个矩阵中,或者将异常值从激活值迁移到权重中,导致高延迟或精度下降。通过观察大型语言模型中的激活值,可以将异常值分类为通道级异常值和尖峰异常值。在本工作中,我们提出了旋转运行时平滑 (RRS),一种用于量化的即插即用激活平滑器,它由运行时平滑和旋转操作组成。运行时平滑 (RS) 通过在运行时使用通道级最大值平滑激活值来消除通道级异常值。旋转操作可以缩小尖峰异常值和正常值之间的差距,减轻通道级平滑造成的受害者影响。所提出的方法在 LLaMA 和 Qwen 家族中优于最先进的方法,并将 WikiText-2 的困惑度从 57.33 提高到 INT4 推理的 6.66。