LLM2D

摘要

arXiv:2504.03164v2 宣布类型: replace-cross 摘要：近期在视觉-语言模型（VLMs）方面的进展显示了其在自主驾驶任务中的强大潜力。然而，它们的空间理解与推理——自主驾驶的关键能力——依然表现出显著的局限性。值得注意的是，现有的所有基准都没有系统地评估VLMs在驾驶场景中的空间推理能力。为了填补这一空白，我们提出了NuScenes-SpatialQA，这是首个基于地面真实数据的问答（QA）基准，专门用于评估视觉-语言模型在自主驾驶中的空间理解和推理能力。该基准基于NuScenes数据集构建，并通过一个自动的三维场景图生成管道和问答生成管道构建。该基准系统地评估了视觉-语言模型在多个维度上的空间理解和推理性能。利用此基准，我们对各种视觉-语言模型进行了广泛的实验，包括通用模型和增强空间模型，提供了它们在自主驾驶中的空间能力的首次全面评估。令人惊讶的是，实验结果表明，增强空间的视觉-语言模型在定性问答中表现更好，但在定量问答中并不表现出竞争力。总体而言，视觉-语言模型在空间理解和推理方面仍面临不小挑战。