LLM2D
TDBench: 评估视觉-语言模型理解自顶向下图像的能力
TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images
作者: Kaiyuan Hou, Minghui Zhao, Lilin Xu, Yuang Fan, Xiaofan Jiang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03748v1

摘要

arXiv:2504.03748v1 Announce Type: cross 摘要:视觉-语言模型(VLMs)的快速兴起极大地推进了跨模态理解的发展,使其在场景理解和视觉推理方面得到广泛应用。尽管这些模型主要在前视图像理解方面得到评估和开发,但对于顶视图像的解读能力却受到较少的关注,部分原因是缺少多样化的顶视数据集以及采集此类数据的挑战。相比之下,顶视视觉提供了明确的空间概览和场景上下文理解的改进,使其特别适用于自动驾驶导航、航空成像和空间规划等任务。为弥补这一空白,本文介绍了TDBench,一个全面的VLM顶视图像理解基准。TDBench从公共顶视视角数据集和高质量的模拟图像构建而成,包括多样化的现实世界和合成场景。TDBench包括图像理解十种评估维度的视觉问题-答案对。此外,我们还进行了四个常见的现实世界案例研究,但在现实世界中却较少被探索。通过评估结果揭示现有VLM的优点和局限性,我们希望通过TDBench为未来的研究提供启发。项目主页:https://github.com/Columbia-ICSL/TDBench