LLM2D

摘要

arXiv:2504.08411v1 类型: cross 摘要：视觉操纵的恶意应用已经对许多领域的用户的安全和声誉造成了严重的威胁。为了解决这些问题，在过去几年中，对抗噪声基于的防御方法受到了热烈的研究。然而，“仅数据”方法倾向于在低级特征空间而非高级语义空间中扭曲假样本，这导致其在抵御恶意操纵方面的局限性。前沿研究表明，将深度学习中的知识结合起来可以产生可靠且可泛化的解决方案。受此启发，我们提出了一种知识引导的对抗防御(KGAD)方法，以积极促使恶意操纵模型输出语义模糊的样本。具体来说，在生成对抗噪声的过程中，我们专注于在领域特定知识层面上构建重要的语义混淆，并利用与视觉感知密切相关的度量来替代一般的像素级度量。生成的对抗噪声可以通过触发知识引导和感知相关的干扰来积极地干扰恶意操纵模型的假样本。为了验证所提出方法的有效性，我们在人类感知和视觉质量评估的定性和定量实验中进行了验证。两个不同任务的结果都显示，我们的防御方法提供了比最先进的方法更好的保护，并且具有出色的泛化能力。