LLM2D

摘要

arXiv:2505.01459v1 交叉公告类型摘要：本文介绍了一种新颖的架构MoxE，该架构将扩展长短期记忆（xLSTM）与专家混合（MoE）框架协同结合，以解决大型语言模型（LLMs）中关键的可扩展性和效率挑战。所提出的方法有效利用了xLSTM创新的记忆结构，同时通过MoE战略性地引入稀疏性，显著减少了计算开销。我们方法的核心是一个新颖的基于熵的路由机制，旨在动态地将令牌路由到专门的专家手中，以确保有效和均衡的资源利用。这种熵意识使架构能够有效地管理罕见和常见的令牌，其中mLSTM块更倾向于处理罕见的令牌。为了进一步增强泛化能力，我们引入了一套辅助损失，包括基于熵和组内平衡损失，确保稳健的性能和高效的训练。理论分析和实证评估严格证明，MoxE相比现有方法实现了显著的效率提升和增强的效果，标志着可扩展LLM架构的一个显著进步。