摘要
交织文本和图像生成一直是一个引人入胜的研究方向,其中模型需要以任意顺序生成图像和文本片段。尽管交织生成取得了进展,但其评估的进展仍然远远落后。现有的评估基准不支持任意交织的图像和文本作为输入和输出,并且它们只涵盖有限的领域和用例。此外,目前的工作主要使用基于相似性的度量,这在评估开放式场景中的质量方面存在不足。为此,我们引入了 InterleavedBench,这是第一个精心策划的用于评估交织文本和图像生成的基准。InterleavedBench 具有丰富的任务,涵盖了各种现实世界的用例。此外,我们提出了 InterleavedEval,这是一种强大的无参考度量,由 GPT-4o 提供支持,可以提供准确且可解释的评估。我们仔细定义了 InterleavedEval 的五个重要评估方面,包括文本质量、感知质量、图像连贯性、文本图像连贯性和帮助性,以确保全面细致的评估。通过大量的实验和严格的人工评估,我们表明我们的基准和度量可以有效地评估现有模型,并且与人工判断具有很强的相关性,超过了以前的基于参考的度量。我们还提供了大量发现和见解,以促进未来交织生成及其评估的研究。