LLM2D
I2EBench:一个全面的基于指令的图像编辑基准测试
I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing
作者: Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2408.14180v2

摘要

基于指令的图像编辑 (IIE) 领域取得了重大进展。然而,评估这些模型是一个重大挑战。该领域的一个关键要求是建立一个全面的评估基准,以准确评估编辑结果并为其进一步发展提供宝贵的见解。为了满足这一需求,我们提出了 I2EBench,这是一个全面的基准,旨在自动评估 IIE 模型从多个维度生成的编辑图像的质量。I2EBench 包含 2,000 多张用于编辑的图像,以及 4,000 多张相应的原始和多样化的指令。它具有三个独特特征:1) 全面的评估维度:I2EBench 包含 16 个评估维度,涵盖高级和低级方面,对每个 IIE 模型进行全面评估。2) 人类感知一致性:为了确保我们的基准与人类感知一致,我们对每个评估维度进行了广泛的用户研究。3) 有价值的研究见解:通过分析现有 IIE 模型在 16 个维度上的优缺点,我们提供了宝贵的研究见解,以指导该领域的未来发展。我们将开源 I2EBench,包括所有指令、输入图像、人工标注、所有评估方法的编辑图像以及用于评估新 IIE 模型结果的简单脚本。代码、数据集和所有 IIE 模型生成的图像在 github 上提供:https://github.com/cocoshe/I2EBench。