LLM2D
每个专家都重要:向有效混合专家语言模型的知识蒸馏靠近
Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models
作者: Gyeongman Kim, Gyouk Chu, Eunho Yang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12947v1

摘要

arXiv:2502.12947v1 类型: cross 摘要:随着混合专家(MoE)的出现,模型规模的高效扩展已经加速了近年来大型语言模型的发展。然而,它们对内存的高需求限制了它们在资源受限环境中的应用。虽然知识蒸馏(KD)已经被证明是一种有效的模型压缩方法,但其应用于MoE教师模型的研究仍然相对较少。通过我们的调查,我们发现MoE模型中未激活的专家蕴含了对学生模型有益的知识。我们进一步证明,现有的KD方法对于压缩MoE模型来说并不理想,因为它们无法有效地利用这种知识。为了解决这个问题,我们首次提出了两种针对MoE的直观KD方法:知识增强(KA)和学生意识路由器(SAR),两者都旨在有效提取所有专家的知识。具体而言,KA通过多次采样专家来增强知识,而SAR使用所有专家并通过路由器训练调整专家权重,以提供最优知识。大量的实验结果显示,我们提出的方法优于传统KD方法,证明了它们对MoE教师模型的有效性。