LLM2D

摘要

arXiv:2409.13559v1 公告类型: 交叉摘要: 本文提出了一种通过生成网络进行深度可视化的新方法，相较于现有方法有所改进。我们的模型通过减少使用的网络数量简化了架构，仅需一个生成器和一个判别器，而传统方法涉及多个网络。此外，我们的模型需要较少的先验训练知识，并采用非对抗性训练过程，其中判别器作为生成器的指导而非竞争对手。本工作的核心贡献在于其能够生成与特定类别标签对齐的详细可视化图像。我们的模型采用了独特的跳跃连接启发式块设计，通过在多层之间传播类别信息来增强标签导向的图像生成。此外，我们探讨了这些生成的可视化如何被用作对抗样本，以最小的可感知修改有效地欺骗分类网络。实验结果表明，我们的方法在目标攻击和非目标攻击中均优于传统的对抗样本生成技术，扰动最小的情况下达到了高达94.5%的欺骗率。本工作填补了可视化方法与对抗样本之间的空白，提出欺骗率可以作为评估可视化质量的定量指标。本研究的见解为神经网络的可解释性及其对抗攻击的脆弱性提供了新的视角。