LLM2D

摘要

arXiv:2504.07836v2 任务类型: replace-cross 摘要：视觉接地（VG）旨在基于自然语言描述在图像中定位目标对象。在本文中，我们提出了AerialVG，一个新的任务，专注于从航空视图进行视觉接地。与传统的视觉接地相比，AerialVG提出了新的挑战，例如，基于外观的接地无法区分多个视觉上相似的对象，而位置关系则应被重视。此外，现有的VG模型在应用于包含高分辨率图像的航空图像时遇到了显著的困难。为了应对这些挑战，我们介绍了第一个AerialVG数据集，包含5000张真实的航空图像、50000个手动标注的描述以及103000个对象。特别是，AerialVG数据集中的每个标注包含多个用相对空间关系标注的目标对象，要求模型进行全面的空间推理。此外，我们还提出了一个特别适用于AerialVG任务的创新模型，在该模型中设计了一个分层交叉注意力机制以关注目标区域，并设计了一个关系感知的接地模块以推断位置关系。实验结果验证了我们数据集和方法的有效性，突出了在航空视觉接地中进行空间推理的重要性。代码和数据集将被公开。