LLM2D

摘要

arXiv:2505.07260v1 公告类型: 交叉摘要: 稀疏混合专家（MoE）架构已 emerges 作为一种扩展 Transformer 模型的有前途的方法。虽然早期的工作主要将 MoE 集成到前馈网络（FFN）层中，但最近的研究已探索将 MoE 观念扩展到注意力层，以提高模型性能。然而，现有的基于注意力的 MoE 层需要专门的实现，并且与基于 FFN 的对应层相比，其表现出次优性能。在本文中，我们提出了一个新方法来统一注意力层和 FFN 层中的 MoE 设计，通过引入注意力机制的新形式化，揭示了注意力模块中内在的类似 FFN 的结构。我们提出的 UMoE 架构通过基于注意力的 MoE 层实现了优越的性能，同时允许 FFN 和注意力组件之间的高效参数共享。