摘要
arXiv:2504.00948v1 类型: cross
摘要:基于Vision Transformer (ViT) 的模型在基于视觉的AI任务中展现了最先进的性能(例如,准确率)。然而,要在资源受限的嵌入式AI系统中实现其能力具有挑战性,因为它们固有的大内存占用和复杂的计算,从而导致高功率/能量消耗。最近,基于Spiking Vision Transformer (SViT) 的模型作为低功耗ViT网络的替代品已经出现。然而,SViT模型仍然因大内存占用而阻碍其在资源受限的嵌入式AI系统中的应用。因此,需要一种方法来压缩SViT模型而不显著降低其准确率。为了解决这一问题,我们提出了一种新的设计方法QSViT,通过在不同网络层系统化地量化策略来压缩SViT模型。为了实现这一目标,我们的QSViT采用了一些关键步骤:(1)研究不同精度级别在不同网络层的影响,(2)确定适当的基准量化设置以指导比特精度的减少,(3)根据基准设置执行指导量化策略来选择适当的量化设置,以及(4)基于选定的量化设置开发高效的量化网络。实验结果表明,我们的QSViT方法在ImageNet数据集上实现了22.75%的内存节省和21.33%的功率节省,同时在原始非量化SViT模型的准确率基础上仅减少了2.1%。这些结果突显了QSViT方法的潜力,可以为资源受限的嵌入式AI系统中的高效SViT部署铺平道路。