LLM2D

摘要

arXiv:2411.10232v2 公告类型: 替换-交叉摘要：文本到图像（T2I）扩散模型凭借其卓越的生成能力，已经被应用于图像编辑任务中，展示了显著的效果。然而，由于注意力泄露和对象的交叉注意力图与来自文本提示的新颜色属性之间的碰撞，文本引导的图像编辑方法可能会无法改变对象的颜色，导致生成的图像与文本提示之间的对齐出现问题。在本文中，我们深入分析了文本引导图像合成的过程以及不同交叉注意力块学习到的语义信息。我们观察到，在去噪过程的早期阶段，扩散模型的上部块决定了对象的视觉表示，并且可以通过交叉注意力层中的值矩阵对齐来实现颜色调整。基于我们发现的内容，我们提出了一种简单但稳定且有效的图像引导方法，可以在不需任何额外的微调或训练的情况下修改对象的颜色。最后，我们提出了一个基准数据集名为COLORBENCH，这是首个用于评估颜色变化方法性能的基准。广泛的实验验证了我们方法在对象级别颜色编辑的有效性，并且在合成和真实图像中均超过了流行的文本引导图像编辑方法的性能。