摘要
arXiv:2505.02236v1 公告类型: cross
摘要: 当前的文本到图像生成模型在准确表示物体状态(例如,“没有瓶子的桌子”,“空的杯子”)方面面临困难。在这项工作中,我们首先设计了一个全自动的工作流程,生成高质量的合成数据,准确捕捉各种状态的物体。接下来,我们在此合成数据上微调了几种开源的文本到图像模型。我们通过量化生成图像与提示之间的对齐程度来评估微调模型的表现,并在公共GenAI-Bench数据集上实现了四款模型平均8%以上的绝对改善。我们还整理了一组200个特定关注常见物体在多种物理状态下的提示。我们在该数据集上展示了平均24%以上的基线显著改进。我们发布了所有评估提示和代码。