摘要
arXiv:2505.07260v1 公告类型: 交叉
摘要: 稀疏混合专家(MoE)架构已 emerges 作为一种扩展 Transformer 模型的有前途的方法。虽然早期的工作主要将 MoE 集成到前馈网络(FFN)层中,但最近的研究已探索将 MoE 观念扩展到注意力层,以提高模型性能。然而,现有的基于注意力的 MoE 层需要专门的实现,并且与基于 FFN 的对应层相比,其表现出次优性能。在本文中,我们提出了一个新方法来统一注意力层和 FFN 层中的 MoE 设计,通过引入注意力机制的新形式化,揭示了注意力模块中内在的类似 FFN 的结构。我们提出的 UMoE 架构通过基于注意力的 MoE 层实现了优越的性能,同时允许 FFN 和注意力组件之间的高效参数共享。