LLM2D
通过注意力引导的特征增强修复文本到图像扩散模型中的灾难性忽视问题
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2406.16272v2

摘要

文本到图像扩散模型(T2I DMs)因其能够根据文本描述生成高质量图像而受到广泛关注。然而,这些模型经常生成与输入提示不完全一致的图像,导致语义不一致。其中最显著的问题是灾难性忽略,即T2I DMs生成的图像缺少提示中提到的关键对象。我们首先对这一问题进行了实证研究,探索了灾难性忽略的普遍性、通过特征增强的潜在缓解策略以及获得的洞见。在实证研究的指导下,我们提出了一种名为Patcher的自动修复方法,解决T2I DMs中的灾难性忽略问题。具体而言,Patcher首先确定提示中是否存在被忽略的对象,然后对这些被忽略的对象应用注意力引导的特征增强,生成一个修复后的提示。对三个版本的稳定扩散模型的实验结果表明,Patcher有效修复了灾难性忽略问题,与基线相比,在图像生成中的正确率提高了10.1%-16.3%。