LLM2D

摘要

在这项工作中，我们旨在同时提高混合专家 (MoE) 方法的有效性和效率。为此，我们提出了 MoE++，这是一个通用的异构 MoE 框架，它集成了前馈网络 (FFN) 和零计算专家。具体来说，我们引入了三种类型的零计算专家：零专家、复制专家和常数专家，分别对应于丢弃、跳过和替换操作。这种设计提供了三个主要优势：(i) 低计算开销：与普通 MoE 中对所有标记的统一混合机制不同，MoE++ 允许每个标记与动态数量的 FFN 相结合，由常数向量调整，甚至完全跳过 MoE 层。(ii) 高性能：通过允许简单的标记使用更少的 FFN 专家，MoE++ 允许更多专家专注于具有挑战性的标记，从而释放出比普通 MoE 更大的性能潜力。(iii) 部署友好：鉴于零计算专家具有可忽略的參數，我們可以在每個 GPU 上部署所有零計算专家，从而消除与分布在不同 GPU 上的 FFN 专家相关的重大通信开销和专家负载不平衡问题。此外，我们利用门控残差，使每个标记在选择合适的专家时能够考虑前一层所采取的路径。大量实验结果表明，与相同大小的普通 MoE 模型相比，MoE++ 实现了更好的性能，同时提供了 1.1-2.1 倍的专家前向吞吐量，这为开发先进且高效的 MoE 相关模型奠定了坚实的基础。