LLM2D

A-Bench: LMMs 是不是擅长评估 AI 生成的图像？

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

作者: Zicheng Zhang, Haoning Wu, Chunyi Li, Yingjie Zhou, Wei Sun, Xiongkuo Min, Zijian Chen, Xiaohong Liu, Weisi Lin, Guangtao Zhai

发布日期: 2/10/2025

arXiv ID: oai:arXiv.org:2406.03070v2

摘要

arXiv:2406.03070v2 宣布类型: 替换交叉摘要: 如何准确且高效地评估由人工智能生成的图像(AIGI)仍然是生成模型面临的一个关键挑战。鉴于进行用户研究所需的高度成本和大量时间投入，许多研究人员转向使用大规模多模态模型(LMMs)作为AIGI评估器，但这些评估器的精度和有效性仍然值得怀疑。此外，传统的基准测试通常主要使用自然捕获的内容而非AIGIs来测试LMMs的能力，这导致了AIGIs方面的明显差距。因此，本文介绍了A-Bench这一基准测试，旨在诊断LMMs是否擅长评估AIGIs。具体而言，A-Bench遵循两个关键原则：1) 强调高层语义理解和低层视觉质量感知，以应对AIGIs的复杂需求。2) 利用各种生成模型创建AIGIs，并使用各种LMMs进行评估，这确保了全面的验证范围。最终，本文从16种文本到图像模型中采样了2,864个AIGIs，每个AIGI都配有由人类专家标注的问题-答案，并在18种领先LMMs上进行了测试。我们希望A-Bench能够显著提高评估过程，并促进AIGIs的生成质量。基准测试可在https://github.com/Q-Future/A-Bench获取。

查看原文下载 PDF