LLM2D
MoxE:带有熵意识路由的混合xLSTM专家语言模型高效训练方法
MoxE: Mixture of xLSTM Experts with Entropy-Aware Routing for Efficient Language Modeling
作者: Abdoul Majid O. Thiombiano, Brahim Hnich, Ali Ben Mrad, Mohamed Wiem Mkaouer
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01459v1

摘要

arXiv:2505.01459v1 交叉公告类型 摘要:本文介绍了一种新颖的架构MoxE,该架构将扩展长短期记忆(xLSTM)与专家混合(MoE)框架协同结合,以解决大型语言模型(LLMs)中关键的可扩展性和效率挑战。所提出的方法有效利用了xLSTM创新的记忆结构,同时通过MoE战略性地引入稀疏性,显著减少了计算开销。我们方法的核心是一个新颖的基于熵的路由机制,旨在动态地将令牌路由到专门的专家手中,以确保有效和均衡的资源利用。这种熵意识使架构能够有效地管理罕见和常见的令牌,其中mLSTM块更倾向于处理罕见的令牌。为了进一步增强泛化能力,我们引入了一套辅助损失,包括基于熵和组内平衡损失,确保稳健的性能和高效的训练。理论分析和实证评估严格证明,MoxE相比现有方法实现了显著的效率提升和增强的效果,标志着可扩展LLM架构的一个显著进步。