摘要
arXiv:2504.04935v1 宣布类型: cross
摘要: 人群计数是一项关键的计算机视觉任务,已经成为了人群分析和公共安全管理中的基础技术。然而,规模变化和复杂背景等挑战显著影响了人群计数的准确性。为了解决这些问题,本文提出了一种鲁棒的基于Transformer的人群计数网络,称为RCCFormer,该网络专门设计用于背景抑制和尺度感知。所提出的方法结合了多级特征融合模块(MFFM),该模块精心地将骨干架构不同阶段提取的特征整合在一起。该方法建立了一个强大的基线,能够捕捉到精细而全面的特征表示,超越了传统的基线方法。此外,引入的Detail-Embedded Attention Block (DEAB) 通过全局自注意力和局部注意力并以可学习的方式进行有效融合,捕捉上下文信息和局部细节。这增强了模型在聚焦前景区域方面的能力,同时有效地减轻了背景噪声干扰。此外,我们开发了一种自适应尺度感知模块(ASAM),其基础组成部分是我们的新颖输入依赖可变形卷积(IDConv)。该模块能够动态适应头部目标形状和尺度的变化,显着提高了网络适应大尺度变化的能力。所提出方法的有效性已在ShanghaiTech Part_A和Part_B、NWPU-Crowd和QNRF数据集上得到验证。结果表明,我们的RCCFormer在所有四个数据集上都取得了优异的表现,展示了最先进的结果。