摘要
arXiv:2505.10352v1 类型: cross
摘要:脉冲神经网络(SNNs)在各种视觉任务中展示了与人工神经网络(ANNs)相媲美的性能,同时具备出色的能量效率。然而,现有的基于SNN的Transformer主要集中在单图像任务上,强调空间特征,但未能充分利用SNN在基于视频的视觉任务中的高效性。在本文中,我们引入了SpikeVideoFormer,这是一种高效的由脉冲驱动的视频Transformer,特征为线性时间复杂度$\mathcal{O}(T)$。具体而言,我们设计了一种由脉冲驱动的汉明注意力(SDHA),从传统的实值注意力过渡到由脉冲驱动的注意力提供了理论指导的适应。基于SDHA,我们进一步分析了各种由脉冲驱动的空间-时间注意力设计,并确定了一种最优方案,该方案在保持线性时间复杂度的同时,为视频任务提供了令人满意的性能。我们的模型在多种下游视频任务上的泛化能力和效率得到了验证,包括分类、人体姿态跟踪和语义分割。实验证明,与现有的SNN方法相比,我们的方法在后两个任务上取得了超过15%的性能提升,同时与最近的ANN基方法的表现相当,并在三项任务上实现了$\times 16$、$\times 10$和$\times 5$的效率提升。更多详细信息参见:https://github.com/JimmyZou/SpikeVideoFormer