LLM2D
CoMat:对齐文本到图像扩散模型与图像到文本概念匹配
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
作者: Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2404.03653v3

摘要

扩散模型在文本到图像生成的领域取得了巨大的成功。然而,减轻文本提示和图像之间错位的问题仍然具有挑战性。错位背后的根本原因尚未得到广泛研究。我们观察到,错位是由标记注意力激活不足引起的。我们进一步将这种现象归因于扩散模型对条件利用不足,而这是由其训练范式造成的。为了解决这个问题,我们提出了CoMat,这是一种具有图像到文本概念匹配机制的端到端扩散模型微调策略。我们利用图像字幕模型来衡量图像到文本的对齐程度,并引导扩散模型重新审视被忽略的标记。还提出了一种新的属性集中模块来解决属性绑定问题。无需任何图像或人类偏好数据,我们仅使用20K个文本提示来微调SDXL以获得CoMat-SDXL。大量的实验表明,CoMat-SDXL在两个文本到图像对齐基准测试中显著优于基线模型SDXL,并达到了最先进的性能。