LLM2D

摘要

arXiv:2505.05799v1 推广类型: cross 摘要: 由于参数数量庞大和计算需求高，专家混合模型（Mixture-of-Experts，MoE）面临着部署挑战。我们探索了MoE模型的量化方法，并强调了两个关键洞见：1）线性层表现出不同的量化敏感性，2）专家激活频率的差异导致了计算特性的异质性。基于这些观察，我们提出了MxMoE，这是一种兼顾算法和系统视角的MoE模型的混合精度优化框架。MxMoE 导航由参数敏感性、专家激活动态和硬件资源定义的设计空间，以得出高效的混合精度配置。此外，MxMoE 自动生成优化的混合精度 GroupGEMM 核心，这使得能够使用不同精度并行执行 GEMM 操作。评估结果显示，MxMoE 超过了现有方法，在2.25位量化下，Wikitext-2 的 perplexity 比 GPTQ 低2.4倍，并且相较于全精度，最快可实现3.4倍的加速。此外，在等效准确性的5位权重-激活量化下，相较于均匀量化，MxMoE 可实现高达29.4%的加速。我们的代码可在 https://github.com/cat538/MxMoE 获取。