摘要
arXiv:2504.01819v1 Announce Type: cross
摘要:文本到图像扩散模型(T2I DMs)的普及使得人工智能生成的图像在日常生活中越来越常见。然而,带有偏见的T2I模型可能会生成具有特定倾向的内容,可能会影响人们的感知。有意利用这些偏见可能会向公众传达误导性信息。当前关于偏见的研究主要集中在具有可识别视觉标志的显性偏见上,如肤色和性别。本文介绍了一种新的隐式偏见形式,它缺乏明确的视觉特征,但在不同的语义上下文中可以以多种方式表现。这种微妙且多变的性质使得这种偏见难以检测,易于传播,并且能够适用于广泛的场景。我们进一步提出了一种针对T2I扩散模型的隐式偏见注入攻击框架(IBI-Attacks),通过在提示嵌入空间预先计算一个通用的偏见方向,并根据不同的输入进行适当的调整。我们的攻击模块可以无缝集成到预训练的扩散模型中,无需直接操作用户输入或重新训练模型。广泛的实验验证了我们的方案通过细微和多样的修改引入偏见的有效性,同时保留了原始语义。我们攻击在各种场景中的强大隐蔽性和可转移性进一步强调了我们方法的重要性。代码可在https://github.com/Hannah1102/IBI-attacks获取。