LLM2D

摘要

模型集成对抗攻击已成为生成可迁移对抗样本的强大方法，可以针对甚至未知模型，但其理论基础仍未得到充分探索。为了弥合这一差距，我们提供了早期理论见解，作为推进模型集成对抗攻击的路线图。我们首先定义了迁移性误差来衡量对抗迁移性中的误差，以及多样性和经验模型集成 Rademacher 复杂度的概念。然后，我们将迁移性误差分解为脆弱性、多样性和一个常数，这严格地解释了模型集成攻击中迁移性误差的来源：对抗样本对集成组件的脆弱性以及集成组件的多样性。此外，我们将信息论中的最新数学工具应用于使用复杂性和泛化项来限定迁移性误差，为减少迁移性误差贡献了三个实用指南：（1）包含更多代理模型，（2）增加其多样性，以及（3）在过拟合的情况下降低其复杂性。最后，对 54 个模型进行的大量实验验证了我们的理论框架，代表了理解可迁移模型集成对抗攻击的重大进步。