LLM2D
在MoEs中寻觅卓越专家:专家丢弃策略与观察的统一研究
Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations
作者: Ajay Jaiswal, Jianyu Wang, Yixiao Li, Pingzhi Li, Tianlong Chen, Zhangyang Wang, Chong Wang, Ruoming Pang, Xianzhi Du
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05586v1

摘要

arXiv:2504.05586v1 类型:交叉 摘要:稀疏激活的专家混合理论(SMoE)在扩大神经网络的学习能力方面展现了潜力。然而,传统的SMoE存在专家冗余和高内存要求等问题,导致它们的效率低下且不具有可扩展性,尤其是在资源受限的场景中。专家级别稀疏化涉及剪枝不重要的专家以解决这些问题。在这项工作中,我们旨在回答三个问题:(1) 什么是最优方法来识别那些可以从性能影响最小的角度被删除的最不重要的专家子集?(2) 我们应该如何执行专家剪枝(一次性或迭代),并采取什么纠正措施来最小化其对SMoE子网络能力的严重影响?(3) 通过移除最不占主导地位的专家,SMoE的哪些能力受到了严重影响,我们如何恢复这些能力?首先,我们提出了一种专家压缩套件(MC-Suite),这是一个包含了一些先前探索和多个新方法的集合,旨在从不同角度提供专家重要性的综合基准,并揭示了大量关于SMoE专家的重要见解。其次,与先前使用一次性专家剪枝方法的研究不同,我们探索了通过重新评估MC-Suite准则来获取迭代剪枝的好处。此外,我们引入了任务无关的微调作为一种在迭代专家剪枝过程中进行纠正的机制,我们称其为SMoE彩弹子网络。最后,我们提出了一项实验验证的假说,即在专家剪枝过程中,SMoE的指令遵循能力受到了主要的损害,但可以通过使用k-shot示例和监督微调来进行外部增强以恢复到稳健的水平。