LLM2D
多模态语言模型作为文本到图像模型评估器
Multi-Modal Language Models as Text-to-Image Model Evaluators
作者: Jiahui Chen, Candace Ross, Reyhane Askari-Hemmat, Koustuv Sinha, Melissa Hall, Michal Drozdzal, Adriana Romero-Soriano
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.00759v2

摘要

arXiv:2505.00759v2 评测类型: 替换-交叉 摘要:文本到图像(T2I)生成模型的持续改进导致依赖静态数据集的自动评估基准变得陈旧,促使研究人员寻找新的评估T2I进展的方法。本文中,我们探讨了多模态大型语言模型(MLLMs)作为与T2I模型交互的评估代理的潜力,旨在评估提示生成一致性和图像美学。我们提出了多模态文本到图像评估(MT2IE),这是一种评估框架,可以通过迭代生成用于评估的提示,对生成的图像进行评分,并使用现有基准中使用的提示分数的一部分将MT2IE与现有静态基准的T2I评估相匹配。此外,我们展示了MT2IE的提示生成一致性评分与文献中之前引入的评分相比,与人类判断的相关性更高。MT2IE生成的提示能够有效探测T2I模型性能,产生的相对T2I模型排名与现有基准相同,但评估所使用的提示数量仅为现有基准的1/80。