LLM2D

摘要

文本到图像扩散模型（T2I DMs）因其能够根据文本描述生成高质量图像而受到广泛关注。然而，这些模型经常生成与输入提示不完全一致的图像，导致语义不一致。其中最显著的问题是灾难性忽略，即T2I DMs生成的图像缺少提示中提到的关键对象。我们首先对这一问题进行了实证研究，探索了灾难性忽略的普遍性、通过特征增强的潜在缓解策略以及获得的洞见。在实证研究的指导下，我们提出了一种名为Patcher的自动修复方法，解决T2I DMs中的灾难性忽略问题。具体而言，Patcher首先确定提示中是否存在被忽略的对象，然后对这些被忽略的对象应用注意力引导的特征增强，生成一个修复后的提示。对三个版本的稳定扩散模型的实验结果表明，Patcher有效修复了灾难性忽略问题，与基线相比，在图像生成中的正确率提高了10.1%-16.3%。