摘要
arXiv:2503.20750v1 类别: cross
摘要:本文介绍了一种 Transformer 增强的、分段混合专家(MoE)架构的理论框架,该架构旨在提高计算效率同时保持模型可扩展性。与传统的 MoE 模型将整个标记嵌入路由到选定的专家不同,我们的方法对嵌入维度本身进行分割——将每个标记表示的片段分配给专门的专家。为了弥补标记表示的损失,我们使用预专家 Transformer 层重新计算标记之间的注意力,并减少序列长度维度。我们通过导出最优缩放定律,将专家数量与模型维度、序列长度和系统开销等因素之间的非线性关系进行了扩展。这些公式的表述提供了在给定架构和硬件约束条件下确定最优专家数量的封闭形式和数值可求解表达式。结果,我们的框架不仅为不同的架构和硬件条件下计算效率的理论边界提供了支持,还为有效扩展大型模型提供了指导性的设计选择。虽然实证验证还在进行中,但我们已在未来的实验路线图中全面介绍了评估框架效率、可扩展性和实际应用的方法。