LLM2D
SparseFormer:通过稀疏视觉变换器检测HRW镜头中的对象
SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer
作者: Wenxi Li, Yuchen Guo, Jilai Zheng, Haozhe Lin, Chao Ma, Lu Fang, Xiaokang Yang
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07216v1

摘要

arXiv:2502.07216v1 类型: cross 摘要:近年来,高分辨率宽视角(HRW)图像和视频捕获系统及其基准的数量不断增加。然而,与MS COCO数据集中的人像镜头不同,更高分辨率和更广阔的视野带来了独特的挑战,如极端稀疏性和巨大的尺度变化,导致现有的近景检测器在准确性上不够准确且效率低下。在本文中,我们提出了一种新颖的模型agnostic稀疏视觉变换器,命名为SparseFormer,以弥合近景镜头和HRW镜头之间对象检测的差距。所提出的SparseFormer有选择地使用注意力令牌来仔细检查可能包含物体的稀疏分布窗口。通过这种方式,它可以联合探索全局和局部注意力,通过融合粗粒度和细粒度特征来处理巨大的尺度变化。SparseFormer还受益于一种新颖的跨切片非极大值抑制(C-NMS)算法,能够精确定位来自嘈杂窗口的对象,并采用一种简单而有效的多尺度策略来提高准确性。在两个HRW基准PANDA和DOTA-v1.0上的广泛实验显示,所提出的SparseFormer相对于现有最先进的方法在检测准确率(高达5.8%)和速度(高达3倍)上有了显著的提升。