摘要
扩散模型在文本到图像生成的领域取得了巨大的成功。然而,减轻文本提示和图像之间错位的问题仍然具有挑战性。错位背后的根本原因尚未得到广泛研究。我们观察到,错位是由标记注意力激活不足引起的。我们进一步将这种现象归因于扩散模型对条件利用不足,而这是由其训练范式造成的。为了解决这个问题,我们提出了CoMat,这是一种具有图像到文本概念匹配机制的端到端扩散模型微调策略。我们利用图像字幕模型来衡量图像到文本的对齐程度,并引导扩散模型重新审视被忽略的标记。还提出了一种新的属性集中模块来解决属性绑定问题。无需任何图像或人类偏好数据,我们仅使用20K个文本提示来微调SDXL以获得CoMat-SDXL。大量的实验表明,CoMat-SDXL在两个文本到图像对齐基准测试中显著优于基线模型SDXL,并达到了最先进的性能。