LLM2D
BadMoE: 通过优化路由触发和感染休眠专家来后门化专家混合模型大语言模型
BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts
作者: Qingyue Wang, Qi Pang, Xixun Lin, Shuai Wang, Daoyuan Wu
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18598v1

摘要

arXiv:2504.18598v1 Announce Type: cross 摘要:混合专家(MoE)已成为大型语言模型(LLMs)的强大架构,使其能够在保持可管理的计算成本的同时,有效地扩展模型容量。关键优势在于它们能够将不同的令牌路由到模型内的不同“专家”网络,从而实现专业化并高效处理各种输入。然而,MoE基的LLMs的潜在漏洞仍然几乎没有被研究过,它们在这一背景下的后门攻击潜力也 largely 不清楚。本文提出了针对MoE基的LLMs的第一个后门攻击,攻击者通过优化路由触发器来毒化“潜伏的专家”(即未充分利用的专家),并激活它们,从而获得对模型输出的控制。我们首先严格证明MoE模型中存在少数“主导专家”,其输出能够决定整体MoE的输出。我们还展示了潜伏专家如何作为主导专家来操纵模型预测。因此,我们的攻击,名为BadMoE,通过利用MoE模型的独特架构来1)识别与目标任务无关的潜伏专家,2)构建一种感知路由的损失函数来优化这些专家的激活触发器,3)通过中毒训练数据促进潜伏专家的主导角色。