LLM2D

摘要

arXiv:2505.04015v1 安全类型: 横向摘要: 本文提出了一种名为 MergeGuard 的新方法，用于缓解 AI 木马攻击。AI 模型中的木马攻击会导致嵌入触发器的输入被误分类为目标对手的类别，对由不可信第三方训练的模型的可用性构成了重大威胁。MergeGuard 的核心是一种新的后训练方法，用于线性化和合并全连接层，我们证明该方法同时提高了模型的泛化能力和性能。我们对 Transformer 模型的概念验证评估表明，MergeGuard 在保持模型准确性的前提下，降低了木马攻击的成功率，性能优于常用的（后训练）木马缓解方法，这些方法通常通过微调实现。