LLM2D
AerialVG:探索位置关系的航空气象接地挑战基准
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations
作者: Junli Liu, Qizhi Chen, Zhigang Wang, Yiwen Tang, Yiting Zhang, Chi Yan, Dong Wang, Xuelong Li, Bin Zhao
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.07836v2

摘要

arXiv:2504.07836v2 任务类型: replace-cross 摘要:视觉接地(VG)旨在基于自然语言描述在图像中定位目标对象。在本文中,我们提出了AerialVG,一个新的任务,专注于从航空视图进行视觉接地。与传统的视觉接地相比,AerialVG提出了新的挑战,例如,基于外观的接地无法区分多个视觉上相似的对象,而位置关系则应被重视。此外,现有的VG模型在应用于包含高分辨率图像的航空图像时遇到了显著的困难。为了应对这些挑战,我们介绍了第一个AerialVG数据集,包含5000张真实的航空图像、50000个手动标注的描述以及103000个对象。特别是,AerialVG数据集中的每个标注包含多个用相对空间关系标注的目标对象,要求模型进行全面的空间推理。此外,我们还提出了一个特别适用于AerialVG任务的创新模型,在该模型中设计了一个分层交叉注意力机制以关注目标区域,并设计了一个关系感知的接地模块以推断位置关系。实验结果验证了我们数据集和方法的有效性,突出了在航空视觉接地中进行空间推理的重要性。代码和数据集将被公开。