LLM2D
线性-MoE:线性序列建模与混合专家相结合
Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
作者: Weigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2503.05447v2

摘要

arXiv:2503.05447v2 通知类型: 替换交叉 摘要:线性序列模型(LSM)如线性注意力、状态空间模型和线性RNN,以及混合专家模型(MoE)最近已经作为重要的架构改进而出现。在本文中,我们介绍了Linear-MoE,这是一种生产级系统,用于将LSM与MoE集成以建模和训练大规模模型。Linear-MoE利用了LSM模块的线性复杂度序列建模优势和MoE层的稀疏激活优势,旨在提供高效训练的同时保持高性能。Linear-MoE系统包括:1)建模子系统,它提供了一个支持所有LSM实例的统一框架;2)训练子系统,它通过结合各种先进的并行技术,特别是为Linear-MoE模型设计的序列并行技术,促使高效训练。此外,我们还探索了将Linear-MoE层与标准Transformer-MoE层结合使用的方法,以及其序列并行性,以进一步增强模型的灵活性和性能。对两个模型系列A0.3B-2B和A1B-7B的评估显示,Linear-MoE在保持竞争力的同时实现了效率提升,展示了其作为下一代基础模型架构的潜力。代码:https://github.com/OpenSparseLLMs/Linear-MoE。