LLM2D

摘要

arXiv:2410.10291v3 Announce Type: replace-cross 摘要：准确解读和可视化人类指令对于文本到图像（T2I）合成至关重要。然而，当前的模型难以捕捉因单词顺序改变所引发的语义变化，而现有的评估依赖于文本-图像相似度等间接指标，无法可靠地评估这些挑战。这往往通过关注常见的短语组合而模糊了复杂或不常见的语言模式的 poor 表现。为了解决这些缺陷，我们提出了一种新的度量标准称为 SemVarEffect 和一个名为 SemVarBench 的基准，旨在评估输入和输出之间在 T2I 合成中的因果关系。通过两种类型的语言排列实现语义变化，同时避免可预测的字面变化。实验结果显示，CogView-3-Plus 和 Ideogram 2 表现最佳，得分为 0.2/1。对象关系的语义变化比属性更难理解，得分为 0.07/1，而属性的得分为 0.17-0.19/1。我们发现，在 UNet 或 Transformer 中的跨模态对齐起着关键作用，而在关注文本编码器时，这一因素之前被忽略了。我们的工作建立了一个有效的评估框架，促进了人类指令理解在 T2I 合成社区中的探索。我们的基准和代码可在 https://github.com/zhuxiangru/SemVarBench 获取。