摘要
深度状态空间模型(SSM)在长程序列建模任务中展示了最先进的性能。尽管SSM的递归结构可以在训练期间高效地实现为卷积或并行扫描,但当前无法在GPU上高效实现逐标记的递归处理。在此,我们展示了在英特尔Loihi 2这一最先进的神经形态处理器上高效实现SSM S4D的逐标记推断。我们将这一首次在神经形态硬件上实现的SSM应用于sMNIST、psMNIST和sCIFAR,并与Jetson Orin Nano(Jetson)上的递归和卷积实现进行比较。我们发现,在基于批处理的离线样本逐个处理模式下,Jetson表现更优,但在基于逐标记的处理模式下,Loihi 2表现更出色,其能耗降低1000倍,延迟降低75倍,吞吐量提高75倍,相较于Jetson上的递归实现。这为SSM在高效实时流应用中开辟了新的途径。