摘要
arXiv:2503.23011v1 交叉公告类型:
摘要:文本到图像(T2I)模型在涉及多个对象和属性的复杂场景中常常出现文本图像对齐不准确的问题。语义绑定旨在通过准确地将生成的属性和对象与其对应的名词短语(NPs)关联起来,来缓解这一问题。现有的方法依赖于文本优化或潜在优化,但影响语义绑定的因素依旧未得到充分探索。在这里,我们研究了文本词嵌入的几何属性及其交叉注意力(CA)图。我们通过实验和理论分析表明,词嵌入的几何属性,特别是角度距离和范数,在CA图的区分中起着至关重要的作用。然后,我们提出了一种名为TeeMo的无需训练的文本嵌入感知T2I框架,具有强大的语义绑定能力。TeeMo包括因果感知投影剔除(CAPO)以实现不同的NPs间的CA图,并包含我们的损失以增强NPs间的分离同时保持NPs内的凝聚力。广泛的实验结果显示,TeeMo在多种基准和数据集上都能稳定地超越先前的方法。