LLM2D

摘要

arXiv:2305.15203v3 宣告类型: replace-cross 摘要：尽管神经网络在分类任务中表现出色，但它们已知容易受到对抗性攻击的影响，即人为设计的输入数据微小扰动，旨在欺骗模型。在这项工作中，我们研究这些扰动与基于梯度的算法训练的神经网络的隐式偏差之间的关联。为此，我们通过傅里叶变换的视角分析神经网络隐式偏差的表示。具体而言，我们通过计算每个图像准确分类所需的基本频率和其对抗性扰动版本导致误分类的频率，识别出隐式偏差和对抗性攻击的独特指纹。这种方法使我们能够揭示并分析这些基本频率之间的关联，提供网络偏见在傅里叶空间如何与对抗性攻击利用的频率成分对齐或对立的精确地图。为此，我们使用了一种新引入的技术，该技术能够检测高维数据集之间的非线性关联。我们的结果提供了实证证据，证明傅里叶空间中的网络偏见与对抗性攻击的目标频率高度相关，并建议了新的潜在对抗防御策略。