LLM2D
NuScenes-空间QA:自动驾驶中视觉语言模型的空间理解与推理基准
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving
作者: Kexin Tian, Jingrui Mao, Yunlong Zhang, Jiwan Jiang, Yang Zhou, Zhengzhong Tu
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.03164v1

摘要

arXiv:2504.03164v1 宣布类型:交叉 摘要:近年来,视觉-语言模型(VLMs)在自主驾驶任务中的应用已经展示了其强大的潜力。然而,它们的空间理解与推理能力——自主驾驶的关键能力——仍然存在显著的局限性。值得注意的是,现有的基准并没有系统性地评估VLMs在驾驶场景中的空间推理能力。为了填补这一空白,我们提出了NuScenes-SpatialQA,这是首个基于真实数据构建的问题-答案(QA)基准,专门设计用来评估VLMs在自主驾驶中的空间理解和推理能力。该基准基于NuScenes数据集构建,通过一个自动化的3D场景图生成管道和一个问题-答案生成管道构建而成。该基准全面评估了VLMs在多个维度上的空间理解和推理性能。利用这一基准,我们进行了广泛的实验,涵盖了各种VLMs,包括通用模型和空间增强模型,提供了对其在自主驾驶中的空间能力的首次全面评估。令人惊讶的是,实验结果表明,空间增强的VLM在定性问题-答案中表现更好,但在定量问题-答案中并不表现出竞争优势。总的来说,VLMs在空间理解和推理方面仍然面临显著的挑战。