摘要
视觉Transformer(ViT)是当前各种视觉应用的首选高性能模型。最近的发展催生了受生物学启发的脉冲Transformer,这些Transformer在神经形态硬件上以超低功耗运行,但尚未完全释放脉冲神经网络的潜力。我们介绍了DS2TA,一种具有衰减时空注意力的去噪脉冲Transformer,专门为视觉应用而设计。DS2TA引入了一种新的脉冲衰减时空注意机制,该机制考虑了时间和空间中发生的输入激发相关性,从而充分利用了Transformer架构核心脉冲神经元的计算能力。重要的是,DS2TA 促进了参数高效的时空注意力计算,而无需引入额外的权重。DS2TA采用高效的基于哈希表的非线性脉冲注意力去噪器,以增强脉冲注意力图的鲁棒性和表达能力。DS2TA在几个广泛采用的静态图像和动态神经形态数据集上展示了最先进的性能。在 4 个时间步长内运行,DS2TA 在 CIFAR10 上实现了 94.92% 的 top-1 准确率,在 CIFAR100 上实现了 77.47% 的 top-1 准确率,以及在 CIFAR10-DVS 和 DVS-Gesture 上分别实现了 79.1% 和 94.44% 的准确率(使用 10 个时间步长)。