LLM2D

摘要

arXiv:2502.04416v1 类型: cross 摘要: 大型语言模型（LLMs）通过扩展模型参数实现了令人印象深刻的表现，但这伴随着显著的推理开销。前向网络（FFNs），在LLM参数中占据主导地位，表现出在隐藏神经元中的高激活稀疏性。为了利用这一点，研究人员提出了使用混合专家（MoE）架构，其中只激活一部分参数。然而，现有方法通常需要大量的训练数据和资源，限制了其实用性。我们提出了一种新的框架CMoE（Carved MoE），以有效地从密集模型中雕刻MoE模型。CMoE 通过高效的专家分组和轻量级适应实现了卓越的性能。首先，基于激活率将神经元分组为共享专家和路由专家。随后，我们构建了一种无需从头开始训练的路由机制，其中包括可微路由过程和负载均衡。使用少量数据，CMoE 可以在五分钟内从一个7B的密集模型中生成一个设计良好且可使用的MoE模型。通过轻量级微调，它可以在不到一小时内实现高性能恢复。我们将在 https://github.com/JarvisPei/CMoE 上公开我们的代码。