摘要
arXiv:2504.13745v1 类型:交叉
摘要:扩散模型已经彻底改变了文本到图像(T2I)合成,产生了高质量、逼真的图像。然而,它们仍然难以恰当地呈现文本提示中描述的空间关系。为了应对T2I生成中缺乏的空间信息,现有方法通常使用外部网络条件和预定义布局,导致计算成本提高和灵活性降低。我们的方法基于一个精心筛选的空间明确提示数据集,这些提示从LAION-400M精心提取和合成,以确保文本描述与空间布局之间精确对齐。除了这个数据集,我们还提出了基于低秩适应的可扩展微调框架ESPLoRA,该框架专门设计用于增强生成模型的空间一致性,而不会增加生成时间或牺牲输出质量。除了ESPLoRA,我们还提出了基于几何约束的细化评估标准,捕获诸如“在...前面”或“在...后面”之类的三维空间关系。这些指标还揭示了T2I模型中的空间偏见,即使这些偏见并未完全消除,我们的TORE算法也可以战略性地利用这些偏见来进一步提高生成图像的空间一致性。我们的方法在现有空间一致性基准测试中优于当前最先进的框架CoMPaSS,实现了13.33%的性能提升。