LLM2D

摘要

基于指令的图像编辑 (IIE) 领域取得了重大进展。然而，评估这些模型是一个重大挑战。该领域的一个关键要求是建立一个全面的评估基准，以准确评估编辑结果并为其进一步发展提供宝贵的见解。为了满足这一需求，我们提出了 I2EBench，这是一个全面的基准，旨在自动评估 IIE 模型从多个维度生成的编辑图像的质量。I2EBench 包含 2,000 多张用于编辑的图像，以及 4,000 多张相应的原始和多样化的指令。它具有三个独特特征：1) 全面的评估维度：I2EBench 包含 16 个评估维度，涵盖高级和低级方面，对每个 IIE 模型进行全面评估。2) 人类感知一致性：为了确保我们的基准与人类感知一致，我们对每个评估维度进行了广泛的用户研究。3) 有价值的研究见解：通过分析现有 IIE 模型在 16 个维度上的优缺点，我们提供了宝贵的研究见解，以指导该领域的未来发展。我们将开源 I2EBench，包括所有指令、输入图像、人工标注、所有评估方法的编辑图像以及用于评估新 IIE 模型结果的简单脚本。代码、数据集和所有 IIE 模型生成的图像在 github 上提供：https://github.com/cocoshe/I2EBench。