摘要
arXiv:2505.07258v1 通告类型: 交叉
摘要:文本对抗攻击通过微妙地修改文本来误导NLP模型,包括大型语言模型(LLMs)。虽然有效,但现有的攻击方法往往需要知道受害模型的知识、进行大量查询或访问训练数据,这限制了其实用性。为了克服这些限制,我们引入了**基于受害数据的对抗攻击(VDBA)**,它仅使用受害文本进行操作。为了防止访问受害模型,我们使用公开获取的预训练模型和聚类方法构建了一个影子数据集,作为开发替代模型的基础。为了解决由于信息反馈不足而导致的低攻击成功率(ASR),我们提出了层次替代模型设计,生成替代模型以缓解单个替代模型在决策边界上的失败。
同时,我们使用多样化的对抗样本生成,采用多种攻击方法生成和选择具有更好相似性和攻击效果的对抗样本。在情感识别和SST5数据集上的实验表明,VDBA 在ASR方面优于最先进的方法,提高了52.08%的同时显著减少了攻击查询次数到0。更重要的是,我们发现VDBA 对Qwen2和GPT家族等大型语言模型构成了重大威胁,并且甚至在没有访问API的情况下仍能实现最高的45.99%的ASR,证实了先进的NLP模型仍然面临严重的安全风险。我们的代码可以在https://anonymous.4open.science/r/VDBA-Victim-Data-based-Adversarial-Attack-36EC/找到。