LLM2D
MambaQuant:基于方差对齐旋转方法的Mamba家族量化
MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods
作者: Zukang Xu, Yuxuan Yue, Xing Hu, Zhihang Yuan, Zixu Jiang, Zhixuan Chen, Jiangyong Yu, Chen Xu, Sifan Zhou, Dawei Yang
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2501.13484v2

摘要

arXiv:2501.13484v2 Announce Type: replace-cross 摘要:Mamba 是一种高效的序列模型,其性能可比肩 Transformer,并且在多种任务中作为基础架构显示了巨大的潜力。量化通常被用于神经网络以减小模型大小和降低计算延迟。然而,将量化应用于 Mamba 仍然处于探索阶段,目前对于 CNN 和 Transformer 模型有效的量化方法似乎对于 Mamba 模型来说并不充分(例如,Quarot 在 Vim-T$^\dagger$ 上的准确率下降了 21% 即便在 W8A8 的情况下)。我们率先探索了这一问题,并识别出几个关键挑战。首先,门控投影、输出投影以及矩阵乘法中存在显著的异常值。其次,Mamba 的独特并行扫描进一步加剧了这些异常值,导致数据分布不均且存在厚尾现象。第三,即使应用了 Hadamard 变换,权重和激活值的通道间方差仍然不一致。为了解决这些问题,我们提出了 MambaQuant,这是一种后训练量化 (PTQ) 框架,包括:1) 增强旋转的Karhunen-Loeve 变换 (KLT),使旋转矩阵能够适应多种通道分布。2) 平滑融合旋转,它可以平衡通道间的方差并将额外参数合并到模型权重中。实验表明,MambaQuant 可以将 Mamba 基础的视觉和语言任务中的权重和激活值量化为 8 位,且准确率损失低于 1%。据我们所知,MambaQuant 是针对 Mamba 家族的第一个全面的 PTQ 设计,为未来在 Mamba 中的应用进一步奠定了基础。