摘要
arXiv:2502.11096v1 宣布类型: 新
摘要: 我们提出了混合可调专家(MoTE)方法,该方法扩展了大型语言模型(LLMs)的专家混合架构。在不进行额外训练的情况下,MoTE能够在推理时使LLMs实现有意义且定向的行为变化。
通过使用我们称之为“功能性标记共振成像”(fTRI,灵感来源于fMRI)的技术分析深度搜索-R1的数字LLM大脑,并使用设计用于引发特定行为的提示(例如,“{时间}{地点}发生了什么?”),我们实证地识别了与拒绝响应等行为相关的独特专家。
使用MoTE,我们能够干预和控制这些特定行为。我们关闭了与拒绝行为最相关的前10个专家(占R1的14,848个路由专家的0.07%),在对敏感参考提示的拒绝率减少了52%的情况下,没有对MT-Bench的性能造成影响。随机关闭专家导致了较小的行为变化,但噪声增加,而强制激活专家则导致了显著更高的拒绝率。
我们的方法在解释性和可引导性方面与稀疏自编码器(SAEs)相似。与SAEs不同,MoTE不需要大规模的训练努力,因为在包含大量专家的MoEs中,专业化在预训练过程中已经自然地出现了。
我们的研究结果表明,在专家混合架构中,至少部分重要的功能性机制可以在少数特定专家中局部化,而不是分布在模型的权重中。专家子组可以被调整以触发显著的行为变化,从而提供关于LLM内部工作机制的见解。