LLM2D

摘要

arXiv:2505.03804v1 Announce Type: cross 摘要：利用动态路由和稀疏激活以提高效率和可扩展性的混合专家（MoE）大型语言模型（LLMs）在减少计算成本的同时实现了更高的性能。然而，这些模型面临显著的内存开销问题，限制了它们的实际部署和更广泛的采用。对于压缩大型语言模型常用的后训练量化（PTQ）方法，在应用于MoE模型时遇到了严重的精度下降和降低的一般化性能问题。本文研究了MoE的稀疏和动态特性对量化的影响，并确定了两个主要挑战：（1）专家间不平衡，指的是样本在专家间的不均匀分布，导致未充分利用的专家的校准不足且偏差；（2）专家内不平衡，源于MoE独特的聚合机制，导致不同样本与其分配专家之间的相关程度不一。为了解决这些挑战，我们提出了MoEQuant，这是一种针对MoE LLM的独特量化框架。MoEQuant包括两种新技术：1）专家均衡自我采样（EBSS）是一种高效的方法，通过利用累积概率和专家平衡指标作为指导因素来高效地构建具有均衡专家分布的校准集。2）亲和力引导量化（AGQ），将专家和样本之间的亲和力纳入量化过程，从而准确评估不同样本对MoE层中不同专家的影响。实验表明，MoEQuant在4位量化下实现了显著的性能提升（例如，DeepSeekMoE-16B在HumanEval上的精度提高超过10分），并提升了效率。