摘要
arXiv:2406.03070v2 宣布类型: 替换交叉
摘要: 如何准确且高效地评估由人工智能生成的图像(AIGI)仍然是生成模型面临的一个关键挑战。鉴于进行用户研究所需的高度成本和大量时间投入,许多研究人员转向使用大规模多模态模型(LMMs)作为AIGI评估器,但这些评估器的精度和有效性仍然值得怀疑。此外,传统的基准测试通常主要使用自然捕获的内容而非AIGIs来测试LMMs的能力,这导致了AIGIs方面的明显差距。因此,本文介绍了A-Bench这一基准测试,旨在诊断LMMs是否擅长评估AIGIs。具体而言,A-Bench遵循两个关键原则:1) 强调高层语义理解和低层视觉质量感知,以应对AIGIs的复杂需求。2) 利用各种生成模型创建AIGIs,并使用各种LMMs进行评估,这确保了全面的验证范围。最终,本文从16种文本到图像模型中采样了2,864个AIGIs,每个AIGI都配有由人类专家标注的问题-答案,并在18种领先LMMs上进行了测试。我们希望A-Bench能够显著提高评估过程,并促进AIGIs的生成质量。基准测试可在https://github.com/Q-Future/A-Bench获取。