LLM2D
在大规模下MoE中的语义 specialization显现:DeepSeek R1 专家 specialization 研究
Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek R1 Expert Specialization
作者: Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Man Luo, Sungduk Yu, Chendi Xue, Vasudev Lal
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10928v1

摘要

arXiv:2502.10928v1 Announce Type: cross 摘要:DeepSeek-R1,最大的开源混合专家(MoE)模型,已经展示了与专有前沿模型相媲美的推理能力。先前的研究已经探索了MoE模型中的专家路由问题,但发现专家选择往往是依赖于令牌而不是语义驱动的。鉴于DeepSeek-R1增强了推理能力,我们研究其路由机制是否比以往的MoE模型展现出更大的语义专业化。为探索这一问题,我们进行了两项关键实验:(1)词汇多义性消歧任务,我们检验具有不同语义的词的专家激活模式;(2)认知推理分析,我们评估DeepSeek-R1在DiscoveryWorld的交互任务设置中的结构化思维过程。我们得出结论,DeepSeek-R1的路由机制更加意识到了语义,并且参与了结构化的认知过程。