LLM2D

摘要

arXiv:2504.07836v1 任务类型: cross 摘要: 视觉定位（VG）的目标是根据自然语言描述在图像中定位目标对象。在这项研究中，我们提出了AerialVG，一个专注于从航拍视角进行视觉定位的新任务。相比于传统的VG，AerialVG提出了新的挑战，例如，基于外观的定位在区分多个视觉上相似的对象时不够充分，位置关系应当被强调。此外，现有的VG模型在应用于航拍图像时遇到困难，高分辨率图像导致显著的困难。为了解决这些挑战，我们引入了第一个AerialVG数据集，包含5000张真实的航拍图像，50000个人工标注的描述，以及103000个对象。特别地，AerialVG数据集中每个标注包含多个用相对空间关系标注的目标对象，这要求模型进行全面的空间推理。此外，我们为AerialVG任务提出了一种创新的模型，其中设计了一种分层交叉注意力来关注目标区域，并设计了一种关系感知的定位模块来推断位置关系。实验结果验证了我们数据集和方法的有效性，突出了在航拍视觉定位中空间推理的重要性。代码和数据集将被发布。