LLM2D

摘要

arXiv:2502.06832v2 类型：交叉摘要：专家混合（MoE）在利用专门的专家网络处理复杂机器学习任务方面表现出显著的成功。然而，它们对对抗攻击的高度敏感性为在鲁棒性应用中部署带来了关键性的挑战。本文探讨了如何在保持高自然准确性的基础上将鲁棒性融入MoE。我们首先分析了MoE组件的脆弱性，发现专家网络比路由器更为容易受到对抗攻击的影响。基于这一见解，我们提出了一种针对鲁棒性的训练技术，该技术集成了一个新的损失函数，以增强MoE的对抗鲁棒性，仅需要额外强化一个专家，而不会影响训练和推理效率。在此基础上，我们提出了一种双模策略，该策略使用平滑参数线性结合一个标准的MoE模型和我们强化的MoE模型。这种方法允许对鲁棒性和准确性的折衷控制。我们还通过为单个MoE和双模模型推导出验证鲁棒性边界来提供了理论基础。为探讨鲁棒性和准确性的极限，我们提出了一种新的联合训练策略JTDMoE用于双模模型。这种联合训练不仅增强了鲁棒性，也超越了单独模型所能达到的准确性。使用ResNet18和 Vision Transformer (ViT) 架构在CIFAR-10和TinyImageNet数据集上的实验结果证明了我们提出方法的有效性。