LLM2D

摘要

arXiv:2502.11096v1 宣布类型: 新摘要: 我们提出了混合可调专家(MoTE)方法，该方法扩展了大型语言模型(LLMs)的专家混合架构。在不进行额外训练的情况下，MoTE能够在推理时使LLMs实现有意义且定向的行为变化。通过使用我们称之为“功能性标记共振成像”(fTRI，灵感来源于fMRI)的技术分析深度搜索-R1的数字LLM大脑，并使用设计用于引发特定行为的提示(例如，“{时间}{地点}发生了什么？”)，我们实证地识别了与拒绝响应等行为相关的独特专家。使用MoTE，我们能够干预和控制这些特定行为。我们关闭了与拒绝行为最相关的前10个专家(占R1的14,848个路由专家的0.07%)，在对敏感参考提示的拒绝率减少了52%的情况下，没有对MT-Bench的性能造成影响。随机关闭专家导致了较小的行为变化，但噪声增加，而强制激活专家则导致了显著更高的拒绝率。我们的方法在解释性和可引导性方面与稀疏自编码器(SAEs)相似。与SAEs不同，MoTE不需要大规模的训练努力，因为在包含大量专家的MoEs中，专业化在预训练过程中已经自然地出现了。我们的研究结果表明，在专家混合架构中，至少部分重要的功能性机制可以在少数特定专家中局部化，而不是分布在模型的权重中。专家子组可以被调整以触发显著的行为变化，从而提供关于LLM内部工作机制的见解。