LLM2D

摘要

arXiv:2502.06832v1 类型: cross 摘要: 专家混合（MoE）在利用专业专家网络进行复杂机器学习任务方面表现出显著的成功。然而，其对对抗攻击的易感性为在稳健应用程序中部署带来了一个关键挑战。本文探讨了如何在保持高自然准确性的前提下将鲁棒性整合到MoE中。我们首先分析了MoE组件的漏洞，发现专家网络比路由器更易受到对抗攻击。基于这一洞察，我们提出了一种针对鲁棒性的训练技术，该技术整合了一个新的损失函数来增强MoE的对抗鲁棒性，仅需对一个额外的专家进行鲁棒化处理，而不影响训练或推理效率。在此基础上，我们引入了一种双模型策略，该策略线性结合了一个标准的MoE模型和我们的鲁棒化MoE模型，并使用平滑参数进行组合。这种方法允许灵活控制鲁棒性-准确性的权衡。我们进一步通过为单个MoE和双模型建立理论基础，得出了确定的鲁棒性边界。为了进一步提升鲁棒性和准确性，我们为双模型提出了一种新的联合训练策略JTDMoE。这种联合训练方式在鲁棒性和准确性上超过了单独模型的表现。使用ResNet18和Vision Transformer（ViT）架构在CIFAR-10和TinyImageNet数据集上的实验结果表明，我们提出的方法是有效的。