LLM2D
BadMoE: 通过优化路由触发器和感染潜伏专家回门大型语言模型混合专家系统
BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts
作者: Qingyue Wang, Qi Pang, Xixun Lin, Shuai Wang, Daoyuan Wu
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.18598v2

摘要

arXiv:2504.18598v2 宣告类型: replace-cross 摘要:专家混合(MoE)已经成为大型语言模型(LLMs)的强大架构,能够在保持可管理计算成本的同时高效扩展模型能力。其关键优势在于能够将不同的令牌路由到模型内的不同“专家”网络中,实现专业化并高效处理多样化输入。然而,基于MoE的LLMs的脆弱性尚未得到充分研究,并且在此背景下的后门攻击的可能性仍未得到充分探索。本文首次对基于MoE的LLMs发起后门攻击,攻击者会毒化“潜伏的专家”(即未充分利用的专家),并通过优化路由触发器来激活它们,从而控制模型的输出。我们首先严格证明了MoE模型中存在少数“主导专家”,其输出可以决定整体MoE的输出。我们还展示了潜伏的专家可以作为主导专家来操控模型预测。因此,我们的攻击具体来说,名为BadMoE,通过利用MoE模型的独特架构1)识别与目标任务无关的潜伏专家,2)构建一种意识路由的损失函数,以优化这些专家的激活触发器,3)通过中毒训练数据将潜伏专家转化为主导角色。广泛的实验表明,BadMoE能够在保持整体模型效用的同时强制执行恶意预测,使其比现有方法更具威胁性和隐蔽性。