LLM2D

摘要

arXiv:2504.18598v2 宣告类型: replace-cross 摘要：专家混合（MoE）已经成为大型语言模型（LLMs）的强大架构，能够在保持可管理计算成本的同时高效扩展模型能力。其关键优势在于能够将不同的令牌路由到模型内的不同“专家”网络中，实现专业化并高效处理多样化输入。然而，基于MoE的LLMs的脆弱性尚未得到充分研究，并且在此背景下的后门攻击的可能性仍未得到充分探索。本文首次对基于MoE的LLMs发起后门攻击，攻击者会毒化“潜伏的专家”（即未充分利用的专家），并通过优化路由触发器来激活它们，从而控制模型的输出。我们首先严格证明了MoE模型中存在少数“主导专家”，其输出可以决定整体MoE的输出。我们还展示了潜伏的专家可以作为主导专家来操控模型预测。因此，我们的攻击具体来说，名为BadMoE，通过利用MoE模型的独特架构1）识别与目标任务无关的潜伏专家，2）构建一种意识路由的损失函数，以优化这些专家的激活触发器，3）通过中毒训练数据将潜伏专家转化为主导角色。广泛的实验表明，BadMoE能够在保持整体模型效用的同时强制执行恶意预测，使其比现有方法更具威胁性和隐蔽性。