LLM2D
多模态语言模型作为文本到图像模型评估器
Multi-Modal Language Models as Text-to-Image Model Evaluators
作者: Jiahui Chen, Candace Ross, Reyhane Askari-Hemmat, Koustuv Sinha, Melissa Hall, Michal Drozdzal, Adriana Romero-Soriano
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00759v1

摘要

arXiv:2505.00759v1 声称类型: cross 摘要:文本到图像(T2I)生成模型的持续改进导致依赖静态数据集的自动评估基准逐渐被淘汰,这促使研究人员寻找评估T2I进展的替代方法。在本文中,我们探讨了多模态大型语言模型(MLLMs)作为与T2I模型交互的评估代理的潜力,旨在评估提示生成一致性和图像美学。我们提出了多模态文本到图像评估(MT2IE)评估框架,该框架迭代生成用于评估的提示,对生成的图像进行评分,并使用现有基准中所使用的提示的分数之一与现有静态基准的T2I评估匹配。此外,我们展示了MT2IE的提示生成一致性评分与文献中引入的先前评分相比,与人类判断的相关性更高。MT2IE生成的提示能够在有效探测T2I模型性能的同时,仅使用现有基准分数的1/80就产生了相同的相对T2I模型排名。