LLM2D

摘要

arXiv:2504.01337v2 宣告类型: 替换-交叉摘要：专家混合（Mixture-of-Experts, MoE）在保持几乎恒定的计算成本的同时成功地扩大了模型规模。通过使用门控网络路由输入令牌，MoE 选择性地激活专家网络子集来处理相应的令牌嵌入。然而，在实践应用中，由于两个关键原因，MoE 的效率实现具有挑战性：专家激活的不平衡，这会导致在模型或专家并行过程中存在大量空闲时间，以及不足的容量利用；以及在系统层面由于专家并行时生成的大量专家路由组合而产生的巨大通信开销。以往的工作通常将其描述为由门控网络倾向于优先处理某些专家而非其他专家所构成的负载不平衡问题，或归因于静态执行，这种方式无法适应运行时的动态专家工作负载。在本文中，我们从一种全新的角度出发，从 MoE 路由策略的更高层次视角和分析出发：专家间的合作与专业化，一些专家倾向于与其他人广泛合作（合作），而另一些则更可能仅与特定专家小组进行激活（专业化）。我们的实验表明，大多数专家倾向于过度合作，导致了不必要的重复通信开销。为此，我们提出了一种新的协作约束路由（C2R）策略，以鼓励更具专业性的专家群体，并提高专家利用率，同时提供了一种高效实现 MoE 的方法，以进一步利用专家专业化。在十项下游 NLP 基准测试中，我们在 LLaMA-MoE 和 Qwen-MoE 上分别实现了 0.51% 和 0.33% 的平均性能提升，并减少了 GPU 之间的 all2all 通信成本，从而在现有最优方案 MegaBlocks 上额外带来了 20%-30% 的总运行时间节省。