摘要
受自然语言处理 (NLP) 领域中 Transformer 的巨大成功启发,视觉 Transformer (ViT) 迅速发展并在各种计算机视觉任务中取得了显著的成果。然而,其巨大的模型尺寸和密集的计算量阻碍了 ViT 在嵌入式设备上的部署,因此需要有效的模型压缩方法,例如量化。不幸的是,由于存在对硬件不友好和对量化敏感的非线性操作,特别是 {Softmax},完全量化 ViT 中的所有操作并非易事,会导致显著的精度下降或不可忽略的硬件成本。为了应对与 *标准 ViT* 相关的挑战,我们将注意力集中在 *高效 ViT* 的量化和加速上,它不仅消除了麻烦的 Softmax,而且将线性注意力与低计算复杂度相结合,并据此提出了 Trio-ViT。具体来说,在算法层面上,我们开发了一个 {定制的训练后量化引擎},充分考虑了无 Softmax 高效 ViT 的独特激活分布,旨在提高量化精度。此外,在硬件层面上,我们构建了一个专门针对高效 ViT 的卷积-Transformer 混合架构的加速器,从而提高了硬件效率。大量实验结果一致地证明了我们 Trio-ViT 框架的有效性。{特别是,在与最先进的 ViT 加速器相比的情况下,我们可以在可比精度下获得高达 $\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, 和 $\uparrow$$\mathbf{7.3}\times$ FPS 的提升,以及 $\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, 和 $\uparrow$$\mathbf{2.1}\times$ DSP 效率的提升。} 代码可在 \url{https://github.com/shihuihong214/Trio-ViT} 获取。