LLM2D

摘要

arXiv:2504.03164v1 宣布类型：交叉摘要：近年来，视觉-语言模型（VLMs）在自主驾驶任务中的应用已经展示了其强大的潜力。然而，它们的空间理解与推理能力——自主驾驶的关键能力——仍然存在显著的局限性。值得注意的是，现有的基准并没有系统性地评估VLMs在驾驶场景中的空间推理能力。为了填补这一空白，我们提出了NuScenes-SpatialQA，这是首个基于真实数据构建的问题-答案（QA）基准，专门设计用来评估VLMs在自主驾驶中的空间理解和推理能力。该基准基于NuScenes数据集构建，通过一个自动化的3D场景图生成管道和一个问题-答案生成管道构建而成。该基准全面评估了VLMs在多个维度上的空间理解和推理性能。利用这一基准，我们进行了广泛的实验，涵盖了各种VLMs，包括通用模型和空间增强模型，提供了对其在自主驾驶中的空间能力的首次全面评估。令人惊讶的是，实验结果表明，空间增强的VLM在定性问题-答案中表现更好，但在定量问题-答案中并不表现出竞争优势。总的来说，VLMs在空间理解和推理方面仍然面临显著的挑战。