LLM2D
Home
Arxiv
返回列表
关于Transformer中混合专家的空间结构
On the Spatial Structure of Mixture-of-Experts in Transformers
作者:
Daniel Bershatsky, Ivan Oseledets
发布日期:
4/8/2025
arXiv ID:
oai:arXiv.org:2504.04444v1
摘要
arXiv:2504.04444v1 类型: cross 摘要:一个常见的假设是,MoE路由器主要通过语义特征来选择专家。然而,我们的研究通过证明位置标记信息也对路由决策起着至关重要的作用,挑战了这一观点。通过广泛的实证分析,我们提供了支持这一假设的证据,发展了一个对观察到的行为的 phenomenological 解释,并讨论了基于MoE的架构的实际意义。
查看原文
下载 PDF