摘要
arXiv:2504.05586v2 宣传类型: 替换-交叉
摘要: 稀疏激活的专家混合(SMoE)已经在扩展神经网络的学习能力方面显示出潜力。然而,传统的SMoE存在专家冗余和高内存需求的问题,使其在资源受限的场景中效率低下且不可扩展。在专家级别上对SMoE进行稀疏化涉及到剪枝那些对性能影响最小但最不重要的专家以解决这些问题。在这项工作中,我们旨在回答三个问题:(1)什么是识别那些可以被最小影响性能就可删除的最不重要的专家的最佳方法?(2)我们应该如何进行专家删除(一次性删除或迭代删除),以及我们如何采取纠正措施以最小化其对SMoE子网络能力的严重影响?(3)当移除最占主导地位的专家时,SMoE的哪些能力受到了严重损害,我们如何恢复这些能力?首先,我们提出了一种SMoE专家压缩套件(MC-Suite),这是一个包含一些已探索和多个新颖方法的集合,用于从不同角度提供评估专家重要性的全面基准,并揭示了许多有关SMoE专家的宝贵见解。其次,与之前使用一次性专家剪枝方法的研究不同,我们探讨了重新估计MC-Suite标准以利用迭代剪枝的益处。此外,我们引入了一种在迭代专家删除过程中作为纠正机制的无任务特定微调,我们称其为SMoE彩票子网络。最后,我们提出了一项实验验证的猜想:在进行专家删除时,SMoE的遵循指令能力受到了主要的损害,但在使用k-shot示例和监督微调的外部增强后,可以将其恢复到一个稳健的水平。