LLM2D

摘要

交织文本和图像生成一直是一个引人入胜的研究方向，其中模型需要以任意顺序生成图像和文本片段。尽管交织生成取得了进展，但其评估的进展仍然远远落后。现有的评估基准不支持任意交织的图像和文本作为输入和输出，并且它们只涵盖有限的领域和用例。此外，目前的工作主要使用基于相似性的度量，这在评估开放式场景中的质量方面存在不足。为此，我们引入了 InterleavedBench，这是第一个精心策划的用于评估交织文本和图像生成的基准。InterleavedBench 具有丰富的任务，涵盖了各种现实世界的用例。此外，我们提出了 InterleavedEval，这是一种强大的无参考度量，由 GPT-4o 提供支持，可以提供准确且可解释的评估。我们仔细定义了 InterleavedEval 的五个重要评估方面，包括文本质量、感知质量、图像连贯性、文本图像连贯性和帮助性，以确保全面细致的评估。通过大量的实验和严格的人工评估，我们表明我们的基准和度量可以有效地评估现有模型，并且与人工判断具有很强的相关性，超过了以前的基于参考的度量。我们还提供了大量发现和见解，以促进未来交织生成及其评估的研究。