LLM2D

摘要

arXiv:2502.12947v1 类型: cross 摘要：随着混合专家（MoE）的出现，模型规模的高效扩展已经加速了近年来大型语言模型的发展。然而，它们对内存的高需求限制了它们在资源受限环境中的应用。虽然知识蒸馏（KD）已经被证明是一种有效的模型压缩方法，但其应用于MoE教师模型的研究仍然相对较少。通过我们的调查，我们发现MoE模型中未激活的专家蕴含了对学生模型有益的知识。我们进一步证明，现有的KD方法对于压缩MoE模型来说并不理想，因为它们无法有效地利用这种知识。为了解决这个问题，我们首次提出了两种针对MoE的直观KD方法：知识增强（KA）和学生意识路由器（SAR），两者都旨在有效提取所有专家的知识。具体而言，KA通过多次采样专家来增强知识，而SAR使用所有专家并通过路由器训练调整专家权重，以提供最优知识。大量的实验结果显示，我们提出的方法优于传统KD方法，证明了它们对MoE教师模型的有效性。