LLM2D

摘要

受自然语言处理 (NLP) 领域中 Transformer 的巨大成功启发，视觉 Transformer (ViT) 迅速发展并在各种计算机视觉任务中取得了显著的成果。然而，其巨大的模型尺寸和密集的计算量阻碍了 ViT 在嵌入式设备上的部署，因此需要有效的模型压缩方法，例如量化。不幸的是，由于存在对硬件不友好和对量化敏感的非线性操作，特别是 {Softmax}，完全量化 ViT 中的所有操作并非易事，会导致显著的精度下降或不可忽略的硬件成本。为了应对与 *标准 ViT* 相关的挑战，我们将注意力集中在 *高效 ViT* 的量化和加速上，它不仅消除了麻烦的 Softmax，而且将线性注意力与低计算复杂度相结合，并据此提出了 Trio-ViT。具体来说，在算法层面上，我们开发了一个 {定制的训练后量化引擎}，充分考虑了无 Softmax 高效 ViT 的独特激活分布，旨在提高量化精度。此外，在硬件层面上，我们构建了一个专门针对高效 ViT 的卷积-Transformer 混合架构的加速器，从而提高了硬件效率。大量实验结果一致地证明了我们 Trio-ViT 框架的有效性。{特别是，在与最先进的 ViT 加速器相比的情况下，我们可以在可比精度下获得高达 $\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, 和 $\uparrow$$\mathbf{7.3}\times$ FPS 的提升，以及 $\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, 和 $\uparrow$$\mathbf{2.1}\times$ DSP 效率的提升。} 代码可在 \url{https://github.com/shihuihong214/Trio-ViT} 获取。