LLM2D

摘要

arXiv:2502.07216v1 类型: cross 摘要：近年来，高分辨率宽视角(HRW)图像和视频捕获系统及其基准的数量不断增加。然而，与MS COCO数据集中的人像镜头不同，更高分辨率和更广阔的视野带来了独特的挑战，如极端稀疏性和巨大的尺度变化，导致现有的近景检测器在准确性上不够准确且效率低下。在本文中，我们提出了一种新颖的模型agnostic稀疏视觉变换器，命名为SparseFormer，以弥合近景镜头和HRW镜头之间对象检测的差距。所提出的SparseFormer有选择地使用注意力令牌来仔细检查可能包含物体的稀疏分布窗口。通过这种方式，它可以联合探索全局和局部注意力，通过融合粗粒度和细粒度特征来处理巨大的尺度变化。SparseFormer还受益于一种新颖的跨切片非极大值抑制(C-NMS)算法，能够精确定位来自嘈杂窗口的对象，并采用一种简单而有效的多尺度策略来提高准确性。在两个HRW基准PANDA和DOTA-v1.0上的广泛实验显示，所提出的SparseFormer相对于现有最先进的方法在检测准确率（高达5.8%）和速度（高达3倍）上有了显著的提升。