LLM2D

摘要

arXiv:2504.01337v1 公告类型：交叉摘要：混合专家（MoE）在保持近似恒定的计算成本的情况下成功地扩大了模型规模。通过使用门控网络来路由输入标记，它选择性地激活专家网络子集来处理相应的标记表示。然而，在实践中，MoE的效率实现面临着两个主要原因的挑战：专家激活的不平衡，这会导致在模型或专家并行时出现大量闲置时间，以及容量利用率不足；以及由于系统级别专家并行中的大量专家路由组合而导致的巨大通信开销。先前的工作通常将其表述为由门控网络对某些专家的偏好所引起的负载不平衡问题，或者将其归因于静态执行，无法适应运行时的动态专家工作负载。在这项工作中，我们从全新视角出发，对MoE路由策略进行更高层次的分析：专家之间的协作和专业化，其中一些专家倾向于广泛与其他专家协同工作（协作），而另一些专家更可能仅与特定子集的专家协同工作（专业化）。我们的实验表明，大多数专家倾向于过度协作，导致通过重复将标记发送到不同的加速器而增加了通信开销。为此，我们提出了一种新的协作约束路由（C2R）策略，鼓励更专业化级别的专家组，同时提高专家利用率，并提出了一种进一步利用专家专业化性的高效MoE实现。我们在LLaMA-MoE和Qwen-MoE上分别在十个下游NLP基准测试中实现了0.51%和0.33%的平均性能提升，同时减少了GPU之间的全对全通信成本，这在现有的最优方案MegaBlocks之上带来了额外20%-30%的总运行时间节省。