摘要
arXiv:2410.10291v4 宣告类型: replace-cross
摘要:文本到图像(T2I)合成中准确地理解和可视化人类指令至关重要。然而,当前模型难以捕捉词序变化引起的语义变化,而现有评价方法依赖于间接指标如文本-图像相似性等,无法可靠地评估这些挑战。这往往使得复杂或不常见的语言模式的性能不佳被频繁词汇组合所掩盖。为了解决这些不足,我们提出了一种新的指标称为SemVarEffect和一个名为SemVarBench的基准,旨在评估输入和输出之间语义变化之间的因果关系在T2I合成中的表现。语义变化通过两种类型的语言重新排列实现,同时避免可预测的字面变化。实验表明,CogView-3-Plus和Ideogram 2表现最佳,得分为0.2/1。对象关系的语义变化不如属性为人所理解,得分为0.07/1,相比之下为0.17-0.19/1。我们发现,UNet或Transformer中的跨模态对齐在处理语义变化方面发挥了关键作用,这是以往关注文本编码器时所忽视的因素。我们的工作建立了有效的评估框架,促进了T2I合成社区对人类指令理解的探索。我们的基准和代码可在 https://github.com/zhuxiangru/SemVarBench 获取。