LLM2D

摘要

arXiv:2504.18556v1 Announce Type: 剪辑摘要：深度神经网络（DNNs）高度容易受到对抗样本的影响，这对其在关键安全任务中的可靠性提出了担忧。目前，评估对抗鲁棒性的方法主要分为攻击基和认证鲁棒性评估方法两大类。前者不仅依赖于特定的攻击算法，而且还十分耗费时间，而后者由于其分析性，通常难以对大型和复杂模型进行实现。少数研究基于模型的决策边界来评估模型的鲁棒性，但它们的评估准确性较低。为了解决上述问题，我们提出了一种基于样本聚类特征的新颖对抗鲁棒性评估指标，即鲁棒性差异指数（RDI）。RDI 受聚类评估的启发，通过对决策边界两侧的特征向量进行类内和类间距离分析来衡量模型的鲁棒性。RDI 是攻击无关的，并且具有高计算效率。实验表明，RDI 在与攻击成功率（ASR）的标准对抗鲁棒性指标之间的相关性更加强烈。RDI 的平均计算时间仅为基于 PGD 攻击的评估方法的 1/30。我们的开源代码可在以下地址获取：https://anonymous.4open.science/r/RDI-B1DA。