LLM2D
NuScenes-空间QA:自主驾驶中视觉语言模型的空间理解与推理基准
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving
作者: Kexin Tian, Jingrui Mao, Yunlong Zhang, Jiwan Jiang, Yang Zhou, Zhengzhong Tu
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03164v2

摘要

arXiv:2504.03164v2 宣布类型: replace-cross 摘要:近期在视觉-语言模型(VLMs)方面的进展显示了其在自主驾驶任务中的强大潜力。然而,它们的空间理解与推理——自主驾驶的关键能力——依然表现出显著的局限性。值得注意的是,现有的所有基准都没有系统地评估VLMs在驾驶场景中的空间推理能力。为了填补这一空白,我们提出了NuScenes-SpatialQA,这是首个基于地面真实数据的问答(QA)基准,专门用于评估视觉-语言模型在自主驾驶中的空间理解和推理能力。该基准基于NuScenes数据集构建,并通过一个自动的三维场景图生成管道和问答生成管道构建。该基准系统地评估了视觉-语言模型在多个维度上的空间理解和推理性能。利用此基准,我们对各种视觉-语言模型进行了广泛的实验,包括通用模型和增强空间模型,提供了它们在自主驾驶中的空间能力的首次全面评估。令人惊讶的是,实验结果表明,增强空间的视觉-语言模型在定性问答中表现更好,但在定量问答中并不表现出竞争力。总体而言,视觉-语言模型在空间理解和推理方面仍面临不小挑战。