LLM2D

摘要

arXiv:2503.05447v2 通知类型: 替换交叉摘要：线性序列模型（LSM）如线性注意力、状态空间模型和线性RNN，以及混合专家模型（MoE）最近已经作为重要的架构改进而出现。在本文中，我们介绍了Linear-MoE，这是一种生产级系统，用于将LSM与MoE集成以建模和训练大规模模型。Linear-MoE利用了LSM模块的线性复杂度序列建模优势和MoE层的稀疏激活优势，旨在提供高效训练的同时保持高性能。Linear-MoE系统包括：1）建模子系统，它提供了一个支持所有LSM实例的统一框架；2）训练子系统，它通过结合各种先进的并行技术，特别是为Linear-MoE模型设计的序列并行技术，促使高效训练。此外，我们还探索了将Linear-MoE层与标准Transformer-MoE层结合使用的方法，以及其序列并行性，以进一步增强模型的灵活性和性能。对两个模型系列A0.3B-2B和A1B-7B的评估显示，Linear-MoE在保持竞争力的同时实现了效率提升，展示了其作为下一代基础模型架构的潜力。代码：https://github.com/OpenSparseLLMs/Linear-MoE。