LLM2D

摘要

arXiv:2409.12314v1 公告类型: 交叉摘要: 最近的研究表明，文本到图像生成模型对多种中毒攻击表现出惊人的脆弱性。实证结果发现，这些模型可以通过改变个体文本提示与相关视觉特征之间的关联而被破坏。此外，多个并发的中毒攻击可以引发“模型内爆”，即模型无法为未中毒的提示生成有意义的图像。这些有趣的发现突显了理解这些模型中毒攻击的直观框架的缺失。在这项工作中，我们通过建模和分析潜在扩散模型中的交叉注意力机制，建立了图像生成模型对中毒攻击鲁棒性的首个分析框架。我们将交叉注意力训练建模为一个抽象的“监督图对齐”问题，并通过对齐难度（AD）指标正式量化训练数据的影响。AD越高，对齐越困难。我们证明，AD随着中毒的个体提示（或概念）数量的增加而增加。随着AD的增长，对齐任务变得越来越困难，导致高度扭曲的结果，通常将有意义的文本提示映射到未定义或无意义的视觉表示。因此，生成模型内爆并输出随机、不连贯的图像。我们通过广泛的实验验证了我们的分析框架，并确认和解释了模型内爆的意外（且未解释）效应，同时产生了新的、未预见的见解。我们的工作为研究扩散模型的中毒攻击及其防御提供了一个有用的工具。