LLM2D

摘要

arXiv:2504.13143v1 编辑类型：交叉摘要：我们引入了$\texttt{Complex-Edit}$，这是一个综合基准，旨在系统地评估基于指令的图像编辑模型在不同复杂度指令下的表现。为了开发这个基准，我们利用GPT-4o自动生成大量多样化的编辑指令。我们的方法遵循一个清晰的“编辑链”管道：首先独立生成个体原子编辑任务，然后将其整合成连贯复杂的指令。此外，我们还引入了一套评估编辑性能各个方面的新颖度量标准，并提供了一个基于VLM的自动评估管道，支持大规模评估。我们的基准提供了几个重要见解：1）开源模型相对于专有闭源模型显著表现较差，随着指令复杂性的增加，性能差距也变得更加显著；2）增加指令的复杂性主要影响模型保留输入图像中的关键元素和保持整体美感的能力；3）将复杂的指令分解为一系列原子步骤，分步执行，会严重影响多个度量标准下的表现；4）直接编辑和分步序列方法的简单最佳选择策略（Best-of-N）可以提高结果；5）我们观察到了“合成数据的诅咒”现象：当合成数据参与模型训练时，随着编辑指令复杂性的增加，这些模型生成的编辑图像会显得越来越合成——这一现象在最新的GPT-4o输出中也同样出现。