LLM2D

摘要

现有的视觉语言理解基准测试主要由处于常规背景中的物体图像组成。因此，最近的多模态大型语言模型仅通过依赖背景语言偏见就能在浅层视觉理解上表现良好。因此，在这些基准测试中的优异表现并不一定意味着强大的视觉理解能力。本文中，我们发布了JourneyBench，这是一个全面的人工标注的生成图像基准测试，旨在评估模型在五个任务中的细粒度多模态推理能力：互补多模态思维链、多图像视觉问答、虚构图像描述、带有幻觉触发器的视觉问答以及带有样本特定干扰项的细粒度检索。与现有基准不同，JourneyBench明确要求在非寻常的虚构场景中进行细粒度多模态推理，其中语言偏见和整体图像概要不足以应对。我们在JourneyBench上对最先进的模型进行了基准测试，并分析了多个细粒度维度的性能。所有五个任务的结果表明，JourneyBench对即使是最好的模型也极具挑战性，这表明模型的视觉推理能力并不如它们最初表现的那样强大。我们讨论了这些发现的影响，并提出了进一步研究的途径。