LLM2D

摘要

arXiv:2504.01228v1 公告类型: cross 摘要：深度学习模型在计算机视觉领域取得了显著的成功，但在黑箱环境中仍然容易受到对抗性攻击的威胁，特别是在模型细节未知的情况下。现有的对抗性攻击方法（即使包括关键帧的方法）往往将视频数据视为简单的向量，忽略了其固有的多维结构，并需要大量的查询，使其既不高效也易于被检测。在这篇论文中，我们提出了一种名为 \textbf{TenAd} 的新型张量基低秩对抗性攻击方法，通过将视频表示为四阶张量来利用视频数据的多维特性。通过利用低秩攻击，我们的方法显著减少了黑箱环境中生成对抗性样本所需的搜索空间和查询数量。在标准视频分类数据集上的实验结果表明，\textbf{TenAd} 在实现更高攻击成功率和更高效查询的同时，能够生成不可感知的对抗性扰动，优于现有的先进方法。在攻击成功率、查询效率和扰动不可感知性方面，我们的方法优于现有黑箱对抗性攻击方法，突显了基于张量的方法在视频模型对抗性攻击中的潜力。