摘要
arXiv:2504.12359v1 类别: cross
摘要: 基于专家混合适应的语言模型 (MoE LLMs) 在多任务适应性方面通过动态将输入路由到专门的专家中展现了显著的潜力。尽管它们取得了成功,但专家之间的协作机制仍然不够清楚,这限制了这些模型的可解释性和优化。在本文中,我们关注两个关键问题:(1) 识别专家协作模式,以及 (2) 通过专家修剪优化 MoE LLMs。为了解决第一个问题,我们提出了一种层次稀疏字典学习 (HSDL) 方法,以揭示专家之间的协作模式。对于第二个问题,我们引入了贡献感知的专家修剪 (CAEP) 算法,该算法有效地修剪了低贡献的专家。我们的广泛实验表明,专家协作模式与特定的输入类型密切相关,并且在各种任务中具有语义意义。此外,修剪实验表明,我们的方法平均提高了 2.5% 的整体性能,优于现有方法。这些发现提供了关于增强 MoE LLMs 的效率和解释性的宝贵见解,为更好地理解专家交互并提高模型优化提供了清晰的理解。