摘要
arXiv:2504.07836v1 任务类型: cross
摘要: 视觉定位(VG)的目标是根据自然语言描述在图像中定位目标对象。在这项研究中,我们提出了AerialVG,一个专注于从航拍视角进行视觉定位的新任务。相比于传统的VG,AerialVG提出了新的挑战,例如,基于外观的定位在区分多个视觉上相似的对象时不够充分,位置关系应当被强调。此外,现有的VG模型在应用于航拍图像时遇到困难,高分辨率图像导致显著的困难。为了解决这些挑战,我们引入了第一个AerialVG数据集,包含5000张真实的航拍图像,50000个人工标注的描述,以及103000个对象。特别地,AerialVG数据集中每个标注包含多个用相对空间关系标注的目标对象,这要求模型进行全面的空间推理。此外,我们为AerialVG任务提出了一种创新的模型,其中设计了一种分层交叉注意力来关注目标区域,并设计了一种关系感知的定位模块来推断位置关系。实验结果验证了我们数据集和方法的有效性,突出了在航拍视觉定位中空间推理的重要性。代码和数据集将被发布。