摘要
本文设计了一种面向 AIoT 系统中设备端时间序列预测的 Transformer 硬件加速器。该加速器将仅整数量化和量化感知训练与优化硬件设计相结合,实现了 6 位和 4 位量化 Transformer 模型,其精度与相关研究中 8 位量化模型相当。通过在嵌入式 FPGA(Xilinx Spartan-7 XC7S15)上进行完整实现,我们考察了在嵌入式物联网设备上部署 Transformer 模型的可行性。这包括对设备端推理的可实现精度、资源利用率、时序、功耗和能耗进行全面分析。我们的结果表明,虽然可以获得足够的性能,但优化过程并非易事。例如,降低量化位宽并不总是导致延迟或能耗降低,这凸显了系统地探索各种优化组合的必要性。与相关研究中的 8 位量化 Transformer 模型相比,我们的 4 位量化 Transformer 模型的测试损失仅增加了 0.63%,运行速度提高了 132.33 倍,能耗降低了 48.19 倍。