LLM2D

摘要

arXiv:2410.06851v2 宣告类型: 替换-交叉摘要：模型集成对抗攻击已成为生成可用于针对甚至未知模型的可传递对抗样本的强大方法，但其理论基础尚未得到充分探索。为了解决这一差距，我们提供了早期的理论见解，作为推进模型集成对抗攻击的蓝图。我们首先定义可传递性误差来衡量对抗样本可传递性的误差，并引入多样性和经验模型集成拉德马赫复杂度的概念。然后，我们将可传递性误差分解为脆弱性、多样性和一个常数，严格解释了模型集成攻击中可传递性误差的来源：对抗样本对集成组件的脆弱性，以及集成组件的多样性。此外，我们应用信息理论中的最新数学工具，结合复杂度和泛化术语来限制可传递性误差，为降低可传递性误差提供了三个实用指南：(1) 包含更多的替代模型，(2) 增加它们的多样性，以及 (3) 当出现过拟合时减少它们的复杂性。最后，使用54个模型进行的大量实验验证了我们的理论框架，标志着对可传递模型集成对抗攻击理解的重要进步。