摘要
arXiv:2502.12677v1 宣告类型: 跨域
摘要:将脉冲神经网络(SNNs)与视觉变换器(ViTs)相结合,在实现能源效率和高性能方面具有潜力,特别适合边缘视觉应用。然而,基于SNN的ViTs与它们的ANN对应物之间仍然存在显著的性能差距。在这里,我们首先分析了基于SNN的ViTs性能有限的原因,并确定了vanilla自我注意力机制与时空脉冲序列之间的不匹配。这种不匹配导致了空间相关性下降和有限的时间交互。为了解决这些问题,我们从生物性眼跳注意力机制中寻求灵感,引入了一种创新的跳动脉冲自我注意(SSSA)方法。具体来说,在空间域中,SSSA采用了一种新颖的基于脉冲分布的方法,以有效地评估SNN基于的ViTs中的Query和Key对的相关性。在时间维度上,SSSA使用了一个眼跳交互模块,该模块在每个时间步长上动态关注选定的视觉区域,并通过时间交互显著增强对整个场景的理解。基于SSSA机制,我们开发了基于SNN的视觉变换器(SNN-ViT)。在各种视觉任务上的广泛实验表明,SNN-ViT在保持线性计算复杂度的同时实现了最先进的性能。SNN-ViT的有效性和效率突显了其在功率敏感的边缘视觉应用中的潜力。