LLM2D

摘要

arXiv:2505.06839v1 声明类型: cross 摘要：专家混合（Mixture-of-Experts，MoE）层在前沿模型架构中变得越来越重要。通过选择性激活参数，它们在增加总参数数量的同时降低了计算成本。本文研究了活跃专家数量（称为粒度）对该设计参数的影响，将具有许多活跃专家（例如，在DeepSeek中每层8个）的架构与具有较少活跃专家（例如，在Llama-4模型中每层1个）的架构进行了比较。我们根据该设计参数证明了网络表达能力的指数级差异，表明模型从更高的粒度中受益。实验结果证实了我们的理论发现，并展示了这种差异。