摘要
arXiv:2502.04416v1 类型: cross
摘要: 大型语言模型(LLMs)通过扩展模型参数实现了令人印象深刻的表现,但这伴随着显著的推理开销。前向网络(FFNs),在LLM参数中占据主导地位,表现出在隐藏神经元中的高激活稀疏性。为了利用这一点,研究人员提出了使用混合专家(MoE)架构,其中只激活一部分参数。然而,现有方法通常需要大量的训练数据和资源,限制了其实用性。我们提出了一种新的框架CMoE(Carved MoE),以有效地从密集模型中雕刻MoE模型。CMoE 通过高效的专家分组和轻量级适应实现了卓越的性能。首先,基于激活率将神经元分组为共享专家和路由专家。随后,我们构建了一种无需从头开始训练的路由机制,其中包括可微路由过程和负载均衡。使用少量数据,CMoE 可以在五分钟内从一个7B的密集模型中生成一个设计良好且可使用的MoE模型。通过轻量级微调,它可以在不到一小时内实现高性能恢复。我们将在 https://github.com/JarvisPei/CMoE 上公开我们的代码。