LLM2D

摘要

arXiv:2504.03748v1 Announce Type: cross 摘要：视觉-语言模型（VLMs）的快速兴起极大地推进了跨模态理解的发展，使其在场景理解和视觉推理方面得到广泛应用。尽管这些模型主要在前视图像理解方面得到评估和开发，但对于顶视图像的解读能力却受到较少的关注，部分原因是缺少多样化的顶视数据集以及采集此类数据的挑战。相比之下，顶视视觉提供了明确的空间概览和场景上下文理解的改进，使其特别适用于自动驾驶导航、航空成像和空间规划等任务。为弥补这一空白，本文介绍了TDBench，一个全面的VLM顶视图像理解基准。TDBench从公共顶视视角数据集和高质量的模拟图像构建而成，包括多样化的现实世界和合成场景。TDBench包括图像理解十种评估维度的视觉问题-答案对。此外，我们还进行了四个常见的现实世界案例研究，但在现实世界中却较少被探索。通过评估结果揭示现有VLM的优点和局限性，我们希望通过TDBench为未来的研究提供启发。项目主页：https://github.com/Columbia-ICSL/TDBench