摘要
在这项工作中,我们旨在同时提高混合专家 (MoE) 方法的有效性和效率。为此,我们提出了 MoE++,这是一个通用的异构 MoE 框架,它集成了前馈网络 (FFN) 和零计算专家。具体来说,我们引入了三种类型的零计算专家:零专家、复制专家和常数专家,分别对应于丢弃、跳过和替换操作。这种设计提供了三个主要优势:(i) 低计算开销:与普通 MoE 中对所有标记的统一混合机制不同,MoE++ 允许每个标记与动态数量的 FFN 相结合,由常数向量调整,甚至完全跳过 MoE 层。(ii) 高性能:通过允许简单的标记使用更少的 FFN 专家,MoE++ 允许更多专家专注于具有挑战性的标记,从而释放出比普通 MoE 更大的性能潜力。(iii) 部署友好:鉴于零计算专家具有可忽略的參數,我們可以在每個 GPU 上部署所有零計算专家,从而消除与分布在不同 GPU 上的 FFN 专家相关的重大通信开销和专家负载不平衡问题。此外,我们利用门控残差,使每个标记在选择合适的专家时能够考虑前一层所采取的路径。大量实验结果表明,与相同大小的普通 MoE 模型相比,MoE++ 实现了更好的性能,同时提供了 1.1-2.1 倍的专家前向吞吐量,这为开发先进且高效的 MoE 相关模型奠定了坚实的基础。