LLM2D
MxMoE:混合精度量化 untuk 混合精度 MoE 的准确性和性能协同设计
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design
作者: Haojie Duanmu, Xiuhong Li, Zhihang Yuan, Size Zheng, Jiangfei Duan, Xingcheng Zhang, Dahua Lin
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05799v1

摘要

arXiv:2505.05799v1 推广类型: cross 摘要: 由于参数数量庞大和计算需求高,专家混合模型(Mixture-of-Experts,MoE)面临着部署挑战。我们探索了MoE模型的量化方法,并强调了两个关键洞见:1)线性层表现出不同的量化敏感性,2)专家激活频率的差异导致了计算特性的异质性。基于这些观察,我们提出了MxMoE,这是一种兼顾算法和系统视角的MoE模型的混合精度优化框架。MxMoE 导航由参数敏感性、专家激活动态和硬件资源定义的设计空间,以得出高效的混合精度配置。此外,MxMoE 自动生成优化的混合精度 GroupGEMM 核心,这使得能够使用不同精度并行执行 GEMM 操作。评估结果显示,MxMoE 超过了现有方法,在2.25位量化下,Wikitext-2 的 perplexity 比 GPTQ 低2.4倍,并且相较于全精度,最快可实现3.4倍的加速。此外,在等效准确性的5位权重-激活量化下,相较于均匀量化,MxMoE 可实现高达29.4%的加速。我们的代码可在 https://github.com/cat538/MxMoE 获取。