LLM2D
AerialVG:探索位置关系的空中视觉定位挑战基准
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations
作者: Junli Liu, Qizhi Chen, Zhigang Wang, Yiwen Tang, Yiting Zhang, Chi Yan, Dong Wang, Xuelong Li, Bin Zhao
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07836v1

摘要

arXiv:2504.07836v1 任务类型: cross 摘要: 视觉定位(VG)的目标是根据自然语言描述在图像中定位目标对象。在这项研究中,我们提出了AerialVG,一个专注于从航拍视角进行视觉定位的新任务。相比于传统的VG,AerialVG提出了新的挑战,例如,基于外观的定位在区分多个视觉上相似的对象时不够充分,位置关系应当被强调。此外,现有的VG模型在应用于航拍图像时遇到困难,高分辨率图像导致显著的困难。为了解决这些挑战,我们引入了第一个AerialVG数据集,包含5000张真实的航拍图像,50000个人工标注的描述,以及103000个对象。特别地,AerialVG数据集中每个标注包含多个用相对空间关系标注的目标对象,这要求模型进行全面的空间推理。此外,我们为AerialVG任务提出了一种创新的模型,其中设计了一种分层交叉注意力来关注目标区域,并设计了一种关系感知的定位模块来推断位置关系。实验结果验证了我们数据集和方法的有效性,突出了在航拍视觉定位中空间推理的重要性。代码和数据集将被发布。