LLM2D
细粒度专家的强大之处:粒度提升了专家混合模型的表达能力
The power of fine-grained experts: Granularity boosts expressivity in Mixture of Experts
作者: Enric Boix-Adsera, Philippe Rigollet
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06839v1

摘要

arXiv:2505.06839v1 声明类型: cross 摘要:专家混合(Mixture-of-Experts,MoE)层在前沿模型架构中变得越来越重要。通过选择性激活参数,它们在增加总参数数量的同时降低了计算成本。本文研究了活跃专家数量(称为粒度)对该设计参数的影响,将具有许多活跃专家(例如,在DeepSeek中每层8个)的架构与具有较少活跃专家(例如,在Llama-4模型中每层1个)的架构进行了比较。我们根据该设计参数证明了网络表达能力的指数级差异,表明模型从更高的粒度中受益。实验结果证实了我们的理论发现,并展示了这种差异。