LLM2D

摘要

arXiv:2504.18598v1 Announce Type: cross 摘要：混合专家（MoE）已成为大型语言模型（LLMs）的强大架构，使其能够在保持可管理的计算成本的同时，有效地扩展模型容量。关键优势在于它们能够将不同的令牌路由到模型内的不同“专家”网络，从而实现专业化并高效处理各种输入。然而，MoE基的LLMs的潜在漏洞仍然几乎没有被研究过，它们在这一背景下的后门攻击潜力也 largely 不清楚。本文提出了针对MoE基的LLMs的第一个后门攻击，攻击者通过优化路由触发器来毒化“潜伏的专家”（即未充分利用的专家），并激活它们，从而获得对模型输出的控制。我们首先严格证明MoE模型中存在少数“主导专家”，其输出能够决定整体MoE的输出。我们还展示了潜伏专家如何作为主导专家来操纵模型预测。因此，我们的攻击，名为BadMoE，通过利用MoE模型的独特架构来1）识别与目标任务无关的潜伏专家，2）构建一种感知路由的损失函数来优化这些专家的激活触发器，3）通过中毒训练数据促进潜伏专家的主导角色。