LLM2D
A-Bench: LMMs 是不是擅长评估 AI 生成的图像?
A-Bench: Are LMMs Masters at Evaluating AI-generated Images?
作者: Zicheng Zhang, Haoning Wu, Chunyi Li, Yingjie Zhou, Wei Sun, Xiongkuo Min, Zijian Chen, Xiaohong Liu, Weisi Lin, Guangtao Zhai
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2406.03070v2

摘要

arXiv:2406.03070v2 宣布类型: 替换交叉 摘要: 如何准确且高效地评估由人工智能生成的图像(AIGI)仍然是生成模型面临的一个关键挑战。鉴于进行用户研究所需的高度成本和大量时间投入,许多研究人员转向使用大规模多模态模型(LMMs)作为AIGI评估器,但这些评估器的精度和有效性仍然值得怀疑。此外,传统的基准测试通常主要使用自然捕获的内容而非AIGIs来测试LMMs的能力,这导致了AIGIs方面的明显差距。因此,本文介绍了A-Bench这一基准测试,旨在诊断LMMs是否擅长评估AIGIs。具体而言,A-Bench遵循两个关键原则:1) 强调高层语义理解和低层视觉质量感知,以应对AIGIs的复杂需求。2) 利用各种生成模型创建AIGIs,并使用各种LMMs进行评估,这确保了全面的验证范围。最终,本文从16种文本到图像模型中采样了2,864个AIGIs,每个AIGI都配有由人类专家标注的问题-答案,并在18种领先LMMs上进行了测试。我们希望A-Bench能够显著提高评估过程,并促进AIGIs的生成质量。基准测试可在https://github.com/Q-Future/A-Bench获取。