摘要
人体行为识别 (HAR) 在视频分析、监控、自动驾驶、机器人技术和医疗保健等各种应用中发挥着关键作用。大多数 HAR 算法都是基于 RGB 图像开发的,这些图像能够捕捉详细的视觉信息。然而,由于记录了可识别特征,这些算法在隐私敏感环境中引发了担忧。事件相机通过在像素级别稀疏地捕捉场景亮度变化,而无需捕捉完整的图像,提供了一种有前景的解决方案。此外,事件相机具有高动态范围,可以有效地处理具有复杂光照条件的场景,例如低光照或高对比度环境。然而,使用事件相机给 HAR 的空间稀疏和高时间分辨率事件数据的建模带来了挑战。为了解决这些问题,我们提出了 SpikMamba 框架,它结合了脉冲神经网络的能源效率和 Mamba 的长序列建模能力,能够有效地从空间稀疏和高时间分辨率的事件数据中捕捉全局特征。此外,为了提高建模的局部性,使用了基于脉冲窗口的线性注意力机制。大量的实验表明,SpikMamba 取得了显著的识别性能,在 PAF、HARDVS、DVS128 和 E-FAction 数据集上分别比之前的最先进技术提高了 1.45%、7.22%、0.15% 和 3.92%。代码可在 https://github.com/Typistchen/SpikMamba 获取。