摘要
arXiv:2505.00759v2 评测类型: 替换-交叉
摘要:文本到图像(T2I)生成模型的持续改进导致依赖静态数据集的自动评估基准变得陈旧,促使研究人员寻找新的评估T2I进展的方法。本文中,我们探讨了多模态大型语言模型(MLLMs)作为与T2I模型交互的评估代理的潜力,旨在评估提示生成一致性和图像美学。我们提出了多模态文本到图像评估(MT2IE),这是一种评估框架,可以通过迭代生成用于评估的提示,对生成的图像进行评分,并使用现有基准中使用的提示分数的一部分将MT2IE与现有静态基准的T2I评估相匹配。此外,我们展示了MT2IE的提示生成一致性评分与文献中之前引入的评分相比,与人类判断的相关性更高。MT2IE生成的提示能够有效探测T2I模型性能,产生的相对T2I模型排名与现有基准相同,但评估所使用的提示数量仅为现有基准的1/80。