LLM2D

摘要

arXiv:2505.00759v2 评测类型: 替换-交叉摘要：文本到图像（T2I）生成模型的持续改进导致依赖静态数据集的自动评估基准变得陈旧，促使研究人员寻找新的评估T2I进展的方法。本文中，我们探讨了多模态大型语言模型（MLLMs）作为与T2I模型交互的评估代理的潜力，旨在评估提示生成一致性和图像美学。我们提出了多模态文本到图像评估（MT2IE），这是一种评估框架，可以通过迭代生成用于评估的提示，对生成的图像进行评分，并使用现有基准中使用的提示分数的一部分将MT2IE与现有静态基准的T2I评估相匹配。此外，我们展示了MT2IE的提示生成一致性评分与文献中之前引入的评分相比，与人类判断的相关性更高。MT2IE生成的提示能够有效探测T2I模型性能，产生的相对T2I模型排名与现有基准相同，但评估所使用的提示数量仅为现有基准的1/80。