LLM2D

QSViT: 一种量化脉冲视觉变换器的方法论

QSViT: A Methodology for Quantizing Spiking Vision Transformers

作者: Rachmad Vidya Wicaksana Putra, Saad Iftikhar, Muhammad Shafique

发布日期: 4/2/2025

arXiv ID: oai:arXiv.org:2504.00948v1

摘要

arXiv:2504.00948v1 类型: cross 摘要：基于Vision Transformer (ViT) 的模型在基于视觉的AI任务中展现了最先进的性能（例如，准确率）。然而，要在资源受限的嵌入式AI系统中实现其能力具有挑战性，因为它们固有的大内存占用和复杂的计算，从而导致高功率/能量消耗。最近，基于Spiking Vision Transformer (SViT) 的模型作为低功耗ViT网络的替代品已经出现。然而，SViT模型仍然因大内存占用而阻碍其在资源受限的嵌入式AI系统中的应用。因此，需要一种方法来压缩SViT模型而不显著降低其准确率。为了解决这一问题，我们提出了一种新的设计方法QSViT，通过在不同网络层系统化地量化策略来压缩SViT模型。为了实现这一目标，我们的QSViT采用了一些关键步骤：（1）研究不同精度级别在不同网络层的影响，（2）确定适当的基准量化设置以指导比特精度的减少，（3）根据基准设置执行指导量化策略来选择适当的量化设置，以及（4）基于选定的量化设置开发高效的量化网络。实验结果表明，我们的QSViT方法在ImageNet数据集上实现了22.75%的内存节省和21.33%的功率节省，同时在原始非量化SViT模型的准确率基础上仅减少了2.1%。这些结果突显了QSViT方法的潜力，可以为资源受限的嵌入式AI系统中的高效SViT部署铺平道路。

查看原文下载 PDF