摘要
最近的研究表明,文本到图像 (T2I) 模型容易受到对抗性攻击,尤其是在文本提示中使用名词扰动。在本研究中,我们研究了对抗性攻击对 T2I 模型生成的图像中文本提示内不同词性标签的影响。我们创建了一个高质量的数据集,用于现实的词性标签标记交换,并执行基于梯度的攻击以找到对抗性后缀,这些后缀会误导 T2I 模型生成具有更改标记的图像。我们的实证结果表明,攻击成功率 (ASR) 在不同的词性标签类别之间差异很大,名词、专有名词和形容词最容易受到攻击。我们探索了对抗性后缀转向效果背后的机制,发现关键标记的数量和内容融合在不同的词性标签之间有所不同,而像后缀可转移性这样的特征在所有类别中都是一致的。我们已将我们的实现公开发布在 - https://github.com/shahariar-shibli/Adversarial-Attack-on-POS-Tags。