摘要
现有的视觉-语言理解基准测试主要包含在正常环境中的物体图像。因此,最近的多模态大型语言模型仅通过依赖背景语言偏差就可以表现良好,而无需进行深入的视觉理解。因此,在这些基准测试上的强劲表现并不一定与强大的视觉理解能力相关联。在本文中,我们发布了 JourneyBench,这是一个由人类注释的生成图像综合基准,旨在评估模型在五项任务中的细粒度多模态推理能力:互补多模态思维链、多图像 VQA、虚构图像字幕、带有幻觉触发器的 VQA 以及带有样本特定干扰项的细粒度检索。与现有基准测试不同,JourneyBench 明确要求在语言偏差和整体图像概要不足的非寻常虚构场景中进行细粒度多模态推理。我们在 JourneyBench 上对最先进的模型进行了基准测试,并根据多个细粒度维度分析了性能。所有五项任务的结果表明,JourneyBench 对于即使是最优秀的模型来说也极具挑战性,表明模型的视觉推理能力并不像最初看起来那样强大。我们讨论了研究结果的意义,并提出了进一步研究的途径。